文/顧曉波
“外國(guó)的Siri都沒戲了,還中國(guó)的Siri呢。”在去年一場(chǎng)語(yǔ)音技術(shù)大會(huì)上,一位業(yè)內(nèi)大佬私下對(duì)記者說,說完后就開始上臺(tái)鼓吹語(yǔ)音助手的未來。
在業(yè)界大佬和投資人們的吹捧下,語(yǔ)音應(yīng)用的大餅被越畫越大,2012年隨著Siri支持中文,又一波創(chuàng)業(yè)者投身其中,各家迫不及待地通過各種演示來證明自己可以秒殺Siri。
然而兩年過去了,在很多智能語(yǔ)音應(yīng)用上,被放在第一位的功能仍然是“打電話給張三”、“發(fā)短信給李四”等,諷刺的是語(yǔ)音撥號(hào)在2000年推出的諾基亞3310上就已經(jīng)被支持,除了語(yǔ)音識(shí)別率的數(shù)字不斷升高,語(yǔ)音助手卻并沒有實(shí)質(zhì)性的進(jìn)步。
“這是一場(chǎng)持久戰(zhàn)。”科大訊飛移動(dòng)互聯(lián)事業(yè)部副總經(jīng)理章繼東說,“未來語(yǔ)音應(yīng)用一定會(huì)成為剛需,但是產(chǎn)品形態(tài)比起現(xiàn)在肯定會(huì)有很大的改變。”
所有語(yǔ)音助手總用戶量?jī)H5000萬
易觀智庫(kù)今年5月發(fā)布的數(shù)據(jù)顯示,2013年5月語(yǔ)音助手類應(yīng)用累積下載量排行中,沖動(dòng)語(yǔ)音助手以29.8%占比第一,其次是智能360占25.2%,而科大訊飛旗下的訊飛語(yǔ)點(diǎn)由于靈犀的分流,排名第三,占到20.1%。
蟲洞語(yǔ)音助手創(chuàng)始團(tuán)隊(duì)成員王向一透露,目前蟲洞語(yǔ)音助手總用戶為1600萬,月活躍用戶在百萬左右,按照易觀智庫(kù)的比例計(jì)算,國(guó)內(nèi)所有語(yǔ)音助手總每月下載量?jī)H為4442萬,用戶量總和僅5000萬,活躍用戶330多萬,對(duì)目前大多數(shù)APP來說,300多萬的月活躍都不是一個(gè)拿得出手的數(shù)字。
想找語(yǔ)音助手的問題太容易,微博、應(yīng)用商店的評(píng)論中,對(duì)流量、識(shí)別率、理解能力的抱怨比比皆是,盡管語(yǔ)音技術(shù)的領(lǐng)頭羊科大訊飛已經(jīng)把語(yǔ)音識(shí)別率做到了95%,但是對(duì)語(yǔ)音助手而言識(shí)別僅僅是開始。
“語(yǔ)音交互的錯(cuò)誤會(huì)傳遞,比如語(yǔ)音識(shí)別的準(zhǔn)確率在85%到95%之間,語(yǔ)義分析的準(zhǔn)確率在85%到95%之間,那么最后的準(zhǔn)確率就會(huì)降到70%-90%。”語(yǔ)音技術(shù)提供商思必馳首席科學(xué)家、劍橋大學(xué)語(yǔ)音識(shí)別技術(shù)研究院俞凱說。
對(duì)多數(shù)用戶而言,在使用語(yǔ)音助手之前,就已經(jīng)承擔(dān)了這10%到30%的出錯(cuò)風(fēng)險(xiǎn),而這一風(fēng)險(xiǎn)再和結(jié)果的準(zhǔn)確性疊加,準(zhǔn)確達(dá)到目的的概率就更低。
不過這并不是語(yǔ)音助手們的錯(cuò),要通過語(yǔ)音助手完成一個(gè)任務(wù),要經(jīng)過語(yǔ)音識(shí)別、語(yǔ)義解析、行動(dòng)選擇、任務(wù)處理、語(yǔ)音合成等多個(gè)環(huán)節(jié),其中語(yǔ)義解析涉及復(fù)雜的自然語(yǔ)言處理,任務(wù)處理又涉及到搜索和大數(shù)據(jù)等技術(shù)。
目前各家各有所長(zhǎng),百度擅長(zhǎng)大數(shù)據(jù),訊飛擅長(zhǎng)語(yǔ)音識(shí)別,蟲洞擅長(zhǎng)自然語(yǔ)言處理,但是沒有一個(gè)公司能夠?qū)⑺协h(huán)節(jié)都做到萬無一失,而其中任何一個(gè)環(huán)節(jié)的缺失,都會(huì)給語(yǔ)音助手的體驗(yàn)和效率大打折扣。
人工智能理想 vs 人機(jī)交互現(xiàn)實(shí)
“聰明的讓人難以置信”、“全能語(yǔ)音助手”、“比Siri更懂中文”、“深度神經(jīng)網(wǎng)絡(luò)”等玄之又玄的描述一再出現(xiàn)在各類語(yǔ)音助手的介紹中,這使得這些軟件看上去似乎無所不能,而這也給了用戶過高的預(yù)期,軟件開發(fā)商們希望通過夸張的描述吸引用戶,卻使自己陷入了另一種尷尬——語(yǔ)音助手給了用戶一個(gè)人工智能的理想,而現(xiàn)實(shí)中,它只是一個(gè)人機(jī)交互工具。
“清晨,手機(jī)像仆人一樣輕聲說:‘主人,該起床了,今天是周五,早上要開例會(huì),別忘了帶會(huì)議報(bào)告哦。’用戶隨即問:‘今天路況如何?’手機(jī)回復(fù):‘今天您的車限行,您可以坐地鐵十號(hào)線直接到公司,保證不遲到。’”俞凱這樣描繪下一代的語(yǔ)音交互技術(shù)。
俞凱介紹,思必馳已經(jīng)通過上下文分析實(shí)現(xiàn)了多輪交互,也就是可以識(shí)別用戶追問的問題,比如用戶說“搜索附近酒店”,得到結(jié)果后追問“我要三星級(jí)的”,語(yǔ)音助手便可在之前的搜索結(jié)果之上進(jìn)行進(jìn)一步篩選,俞凱表示,語(yǔ)音交互的不確定性可以在多輪交互中有效消除。
而另一家語(yǔ)音技術(shù)公司相關(guān)負(fù)責(zé)人表示,這種方式可以針對(duì)某些特定場(chǎng)景實(shí)現(xiàn),比如訂酒店、查機(jī)票等,但是與真正的智能語(yǔ)音仍有距離。
智能360語(yǔ)音助手創(chuàng)始人李傳豐表示,如果真的實(shí)現(xiàn),那已經(jīng)是人工智能,而非簡(jiǎn)單的人機(jī)交互了。
自然語(yǔ)言的解析能力是人機(jī)交互與人工智能之間的鴻溝,人類的語(yǔ)言復(fù)雜程度超出了機(jī)器的理解范圍,這給基于語(yǔ)音的任務(wù)處理帶來了很大的麻煩,記者用訊飛語(yǔ)點(diǎn)測(cè)試“附近有什么餐館”時(shí),系統(tǒng)給出了大眾點(diǎn)評(píng)的附近餐館搜索結(jié)果,而對(duì)系統(tǒng)說“附近有什么便宜的餐館”、“附近有什么高檔餐廳”時(shí),給出的結(jié)果與第一次一樣。語(yǔ)音軟件并不能真正理解用戶的需求。
這一問題并不僅僅存在于國(guó)內(nèi)語(yǔ)音助手,俞凱介紹,目前Siri的四個(gè)語(yǔ)音技術(shù)部門中有一個(gè)研究語(yǔ)音的輸入輸出,四個(gè)負(fù)責(zé)自然語(yǔ)言處理。
“可能大家對(duì)語(yǔ)音助手這類產(chǎn)品寄托了太多情感和期望,但這實(shí)際上是不合適的。”李傳豐說,“人工智能時(shí)代很美好,但理性的講,來的不會(huì)太容易,而且并不是單靠語(yǔ)音助手就可以實(shí)現(xiàn)。”
而章繼東表示,通過上下文解析來提升識(shí)別能力并不是不可行,但是這并不是目前的重點(diǎn),語(yǔ)音助手的搜索結(jié)果需要健全的第三方生態(tài)去支撐,但是現(xiàn)在無論是用戶市場(chǎng)還是第三方生態(tài)都不夠成熟。
馬拉松式競(jìng)爭(zhēng) 試水穿戴設(shè)備與O2O
“我們找了很多投資人,但是他們都說已經(jīng)不看這一類的項(xiàng)目了。”一位語(yǔ)音助手的創(chuàng)業(yè)者說。
資本的駛離讓這一場(chǎng)競(jìng)爭(zhēng)顯得更加漫長(zhǎng)而殘酷,蘋果對(duì)Siri類軟件的排斥則是雪上加霜,訊飛語(yǔ)點(diǎn)和靈犀在經(jīng)過長(zhǎng)達(dá)半年的審核,閹割掉諸多功能后才勉強(qiáng)在App Store上架。
章繼東表示,這是一場(chǎng)馬拉松式的競(jìng)爭(zhēng)。
事實(shí)上有不少“選手”已經(jīng)中途推出,此前宣稱要做中文版Siri的Airi已經(jīng)將近一年沒有更新,小i機(jī)器人轉(zhuǎn)向B2B市場(chǎng),搜狗語(yǔ)音助手在經(jīng)歷了一波大規(guī)模推廣后逐漸淡去。
幸存者們則在技術(shù)和市場(chǎng)的漫長(zhǎng)煎熬中摸索著方向,訊飛語(yǔ)點(diǎn)、蟲洞語(yǔ)音助手和智能360都已經(jīng)通過接入第三方O2O服務(wù)進(jìn)行分成獲得一些收入,李傳豐表示,目前智能360的重心在酒店、機(jī)票、餐飲等領(lǐng)域,未來語(yǔ)音技術(shù)肯定會(huì)在細(xì)分領(lǐng)域爆發(fā)。
不過李傳豐也坦言,O2O也受到技術(shù)的制約,比如訂酒店,由于涉及到地名和各種數(shù)據(jù),語(yǔ)義解析難度很大。
另一方面智能穿戴設(shè)備也給語(yǔ)音助手創(chuàng)造了新的生存空間,章繼東表示,智能穿戴設(shè)備上的用戶需求比智能手機(jī)上窄得多,大多集中在打電話、發(fā)信息以及輸入等功能上,目前的智能語(yǔ)音水平足夠滿足穿戴設(shè)備的需求。
對(duì)語(yǔ)音助手類軟件而言,價(jià)值取決于其能夠提供的服務(wù),百度、搜狗等擁有大數(shù)據(jù)和搜索技術(shù)的公司加入補(bǔ)上了這類軟件的最后一環(huán),在技術(shù)瓶頸難以突破的情況下,加速了這類軟件從技術(shù)導(dǎo)向互聯(lián)網(wǎng)服務(wù)導(dǎo)向的轉(zhuǎn)型,正如章繼東所說,未來語(yǔ)音助手的產(chǎn)品形態(tài)肯定不是現(xiàn)在的樣子,對(duì)正在苦苦煎熬的創(chuàng)業(yè)者來說,能撐下去,就有出頭之日。