【ITBEAR】在GenAI技術(shù)的推動(dòng)下,各行各業(yè)正經(jīng)歷著深刻的變革,智能硬件行業(yè)也不例外。一方面,AIGC與機(jī)器人的融合促進(jìn)了具身智能產(chǎn)業(yè)的迅猛發(fā)展,科幻電影中的清掃機(jī)器人“瓦力”和醫(yī)療機(jī)器人“大白”正逐步成為現(xiàn)實(shí)。另一方面,智能手表、智能眼鏡、智能耳機(jī)等穿戴式智能硬件與多模態(tài)大模型的結(jié)合成為了新的發(fā)展趨勢(shì)。
回顧2017年,天貓精靈、小愛(ài)同學(xué)、小度等語(yǔ)音助手驅(qū)動(dòng)的智能設(shè)備被視為第一批AI硬件革命。盡管這些設(shè)備經(jīng)過(guò)多年的市場(chǎng)培育已逐漸融入我們的生活,成為許多家庭的語(yǔ)音助手,但其AI智能化水平仍相對(duì)初級(jí)。然而,隨著GenAI的興起,更智能化的多模態(tài)大模型為智能硬件注入了新的活力,帶來(lái)了全新的人機(jī)交互體驗(yàn),也催生了智能硬件行業(yè)的新一輪變革。
在智能硬件與多模態(tài)大模型的結(jié)合下,穿戴式設(shè)備的交互體驗(yàn)正迎來(lái)重大變革。據(jù)聲網(wǎng)的市場(chǎng)調(diào)研顯示,多模態(tài)大模型在智能硬件場(chǎng)景的應(yīng)用主要集中在智能眼鏡、智能手表、智能耳機(jī)等穿戴式設(shè)備上,同時(shí)在智能門鈴、智能陪伴玩具等IoT場(chǎng)景也有所應(yīng)用。不同場(chǎng)景下的用戶需求與場(chǎng)景特點(diǎn)存在一定差異,例如智能手表,尤其是兒童智能手表,是多模態(tài)大模型最早落地的IoT硬件場(chǎng)景之一。360兒童手表、小天才等品牌已率先集成此技術(shù),流暢的AI互動(dòng)問(wèn)答不僅填補(bǔ)了兒童的空閑時(shí)間,還通過(guò)智能化的回答為兒童帶來(lái)知識(shí)科普的價(jià)值,輔助教育學(xué)習(xí)。
圖:「Ray-Ban meta」智能眼鏡
智能眼鏡則更加注重通過(guò)AI提升語(yǔ)音交互能力。以meta聯(lián)合雷朋推出的「Ray-Ban meta」智能眼鏡為代表,這款產(chǎn)品通過(guò)加入攝像頭、AI等功能,使用戶可以通過(guò)語(yǔ)音交互讓眼鏡幫助安排工作與日程,或者實(shí)現(xiàn)百科問(wèn)答、學(xué)習(xí)輔助、英文翻譯、語(yǔ)音導(dǎo)航、超擬人情感陪伴及音樂(lè)娛樂(lè)等多種功能。在AI與RTC技術(shù)的加持下,智能眼鏡還支持第一視角音視頻回傳,包括音視頻通話、視頻錄制、直播等,同時(shí)還支持實(shí)時(shí)翻譯、同聲傳譯等場(chǎng)景,搭配手勢(shì)識(shí)別,實(shí)現(xiàn)跨語(yǔ)言環(huán)境的語(yǔ)義理解。
智能耳機(jī)與大模型的結(jié)合則主要集中在實(shí)時(shí)翻譯、情感交流、錄音轉(zhuǎn)寫等核心功能。在實(shí)時(shí)翻譯方面,智能耳機(jī)主要應(yīng)用在1對(duì)1翻譯場(chǎng)景,支持雙方對(duì)話過(guò)程隨時(shí)發(fā)言,無(wú)需等待翻譯完成或?qū)Ψ桨l(fā)言結(jié)束,非常適合雙人會(huì)議、差旅、教學(xué)、社交等高頻深度對(duì)話場(chǎng)景。三星Galaxy Buds系列無(wú)線耳機(jī)、時(shí)空壺W4 Pro等產(chǎn)品就是其中的代表。同時(shí),借助RTC技術(shù),智能耳機(jī)還能實(shí)現(xiàn)多人同頻道、AI降噪等功能。
在情感交流方面,Ola Friend智能耳機(jī)是一個(gè)熱門產(chǎn)品,它可以實(shí)現(xiàn)英語(yǔ)陪練、旅行導(dǎo)游、情感交流等功能。對(duì)于開(kāi)發(fā)者而言,聲網(wǎng)提供了快速、易用、完整的解決方案,并采用了靈活可擴(kuò)展的AIAgent架構(gòu),具備工作流編排能力。開(kāi)發(fā)者與企業(yè)可以自主選擇LLM等組件,根據(jù)特定需求定制和擴(kuò)展AI驅(qū)動(dòng)的實(shí)時(shí)互動(dòng)體驗(yàn)。
在GenAI的趨勢(shì)下,IoT行業(yè)還涌現(xiàn)了智能陪伴機(jī)器人、智能兒童毛絨玩具、智能戒指等一系列智能硬件場(chǎng)景,為用戶帶來(lái)不同硬件終端下的AI語(yǔ)音交互體驗(yàn)。
作為全球?qū)崟r(shí)互動(dòng)云行業(yè)的開(kāi)創(chuàng)者,聲網(wǎng)一直在探索GenAI與RTE結(jié)合帶來(lái)的體驗(yàn)提升和場(chǎng)景創(chuàng)新。此前,聲網(wǎng)發(fā)布了實(shí)時(shí)多模態(tài)對(duì)話式AI解決方案,并在此基礎(chǔ)上針對(duì)IoT行業(yè)的特殊性,探索出了AI x IoT智能硬件解決方案。該方案能夠在低功耗、低算力芯片上快速實(shí)現(xiàn)大模型的接入,具備低延時(shí)實(shí)時(shí)互動(dòng)、低成本靈活適配的特性,通過(guò)豐富的功能在智能硬件場(chǎng)景中構(gòu)建真實(shí)、自然的AI語(yǔ)音交互體驗(yàn)。
圖:聲網(wǎng)AI x IoT智能硬件解決方案架構(gòu)圖