2010年10月28日,在中國,一個由學生創業起家的公司推出了第一款專為智能手機設計的中文語音輸入法,訊飛輸入法,開啟了一個語音交互時代。在它發布大約一年后,谷歌、QQ、搜狗、百度等巨頭才相繼推出自己的語音輸入法。可以說,訊飛輸入法的出現,引領和推動了輸入和交互模式的變革。
10年時間,移動互聯和AI(人工智能技術)的發展,進一步改變了人與機器的交互方式,促進了語音輸入的普及。今年賽諾市場研究對外發布的《2020年中國第三方手機輸入法秋季報》顯示,語音輸入的頻率明顯增加,成為增長最快的輸入方式,而且語音輸入方面的創新,已經成為一款輸入法新增用戶的牽引力。
今天,語音輸入,與AI一起,被看作是將從根本上改變人和機器的關系,給下一代軟件創造巨大價值的技術。
訊飛輸入法面世10年之際,科大訊飛副總裁章繼東表示:“過去十年里,訊飛輸入法秉持著技術頂天,引領語音交互落地的理念,不斷革新產品,努力讓讓億萬用戶高效輸入,樂享溝通。下一個十年,隨著5G和AIoT時代的到來,訊飛輸入法將繼續以過硬的技術實力直面行業發展的挑戰與機遇,不斷提高語音輸入的行業天花板。”
中國人的技術要掌握在中國人手中
2013,中國相聲演員方清平用20.5秒快速說完了《木蘭辭》的前三段,獲吉尼斯世界紀錄《講中文速度最快》證書,被稱為世界上講中文速度最快的人。
就在最近,這個紀錄被再次刷新。10月20日,方清平在公證人員的公證下,再次挑戰快語速朗讀《木蘭辭》,僅用17.81秒時間讀出182字。而在此語速下,訊飛輸入法識別準確率達到100%。
實際上,訊飛輸入法的輸入速度已經突破了1分鐘識別600個字。人們驚訝于訊飛輸入法的快與準。而這背后,是科大訊飛語音和人工智能的積累。
時光回到10年前,當時中國的語音技術幾乎還全部掌握在IBM、微軟等外企手里。正在中國科技大學讀博士的劉慶峰,收到了李開復的邀請。李開復正在創建微軟亞洲研究院,希望劉慶峰加入智能語音團隊。
但劉慶峰的博士導師吳宗紀一直給學生們傳遞一個理念,中國人的技術一定要掌握在中國人的手上。因此,劉慶峰拒絕了李開復的邀請,與幾個同學一起創建了科大訊飛,并于2008年在深交所上市,也是中國在校大學生創業第一個上市公司。
公司創立伊始,語音就被確立為訊飛的核心發展方向,以語音為入口的人工智能技術也成為科大訊飛發展的關鍵。“很多的技術是看不見的,但是我們相信相應技術會改變世界。”科大訊飛副總裁章繼東說。每一次技術革新,訊飛都會快速的應用在自己的產品上。
2010年,訊飛AI研究院就將GMM-hmm-隱馬爾可夫模型應用到語音識別系統中,通過運用WFST解碼器,提高復雜的語言模型,達到了70%識別率。2012年,訊飛又在輸入法中使用了深度神經網絡技術,把全球首個中文云識別的DNA上線到產品中,使得語音識別率一下子提升了到80%。2018年 ,訊飛又開始使用Hybrid-CNN 算法,通過結構優化大幅提升并發路數,語音識別準確率突破98%。今年,訊飛又在產品中加入了動態自適應編解碼語音識別引擎 ,進一步實現了多模態輸入和領域個性化識別。
“在這10年里,訊飛秉承了一個很樸素的理念,就是提升整個社會的效率。”科大訊飛輸入法業務總經理程坤說。
今天,當你撥打各大運營商、銀行等客服電話,很多客服不是真人,而是機器發出的聲音,背后運用的就是訊飛的技術;你出行中使用的打車軟件、導航軟件,導航中林志玲、郭德綱、TFBOYS等等的合成音,也是出自訊飛之手。每年的國家普通話評測、中高考的口語評測,機器評測技術也來源于訊飛……科大訊飛以這樣的方式“隱行”在無數個終端的背后。數據顯示,科大訊飛占據了中文語音市場70%以上的份額。
個性化語音:讓技術有溫度
2020年2月,全國各地的眾多醫生、護士馳援武漢抗擊新冠疫情。但很多人也遇到了一個小問題,聽不太懂武漢話。為此,訊飛輸入法團隊經過10天的緊急技術攻關,上線了武漢話轉普通話功能,并開放給廣大用戶,助力醫患溝通,在短短的時間里,累計服務了3萬人。
方言,其實也是訊飛輸入法團隊在2011年就遇到的一個難題。中國有太多人說的是方言,如果無法準確進行方言的識別,那么語音輸入終將淪為雞肋。
經過用戶調查和數據分析后,訊飛輸入法選擇從需求排名最高的粵語、四川話和河南話入手。2012年的一次版本更新后,上線了粵語語音輸入,成為首款支持粵語語音輸入的輸入法,緊接著上線了四川話和河南話的語音輸入。截止到目前,訊飛輸入法的粵語語音識別準確率已經超過95%,陸續上線了23種方言的語音識別。
語言是很奇妙的東西,承載了民族和族群幾千年的文化。但如果保護不及時,語言消失了,文化也就隨之消失了。數據顯示,世界上大約有6000 ~ 10000多種語言,大部分將于本世紀末消失。
人文內容的載體,需要現代技術的加持。2017年,訊飛輸入法發起“方言保護計劃”公益行動,通過智能語音技術保護方言;截至目前,方言庫的珍貴語料近140萬條,并通過A.I.語言復制實現23種方言識別。“科大訊飛一系列核心技術的不斷突破,有利于拓展方言保護的新方法、新思路。”訊飛輸入法業務部總經理程坤表示。
語音識別的終極目標,就是讓用戶便利自然的輸入文字或發送指令。當語音識別率越高,相應的用戶體驗也就越好,社會價值就更大。為了用戶體驗的極致,訊飛在“個性化語音”功能上下足功夫,通過拓展人工智能技術,解決輸入環境復雜、表達習慣差異、方言等問題。
在這個過程當中,科大訊飛遇到并解決了很多問題。其中最典型的問題就是的語義的區別,比如“程坤”和“陳坤”聽起來差不多,“張總”和“章總”要對應具體的人才能分得清。人在理解相似音的時候,就會出現歧義,更何況是機器。為此,2012年訊飛就在行業內首創了個性化語音識別,允許用戶將本地的人名,自己定義的專業詞匯,特有詞語,上傳到訊飛的后臺。這樣,用戶下次說到這些詞語時,訊飛輸入法就可以把相應的詞語識別出來。為了方便用戶的操作,2017年,訊飛又推出了語音自適應的修改,后臺會自動記錄和學習用戶的修改過程,在用戶無感知的情況下,就能體驗到語音輸入越來越正確。
“我們覺得,科技最重要的是要有溫度,為廣大的用戶提供很好的價值。”科大訊飛副總裁章繼東說。訊飛還做了無障礙語音輸入,包括給每個表情包都做上標簽,滿足視障群體對無障礙輸入個性化輸入需求,在互聯網的世界里鋪設了“盲道”。
中國盲人協會信息信息促進委員會的副主任朱毅清認為,訊飛輸入法在無障礙方面做的大量工作,改變了盲人朋友的學習、就業、工作、生活,使他們的生活發生巨大的變化。
洞察到用戶對語言翻譯的不同需求,訊飛輸入法還在2013年上線了英文語音輸入,并在2015年首創了語音翻譯功能 “隨聲譯”,目前已經支持英日韓俄等多種外語的面對面翻譯,成為一種人際溝通工具。
隨著移動通信技術進步和網絡社交的崛起,人們的溝通和表達有了越來越多的選擇,對于溝通效率也提出了更高的要求。作為“中國人工智能國家隊”一員,訊飛輸入法希望借助背后強大的A.I.技術力量,不斷破解實際應用的難題,為廣大用戶解決不同場景的需求。
十年磨劍 再赴征程
今天,5G和AIOT時代已來,隨著智能家居、車載、可穿戴設備等新的場景和需求不斷增加。人們會越來越多的面對更多遠場、移動、無屏場景下進行輸入的情況,傳統的輸入方式越來越不友好,語音將是最核心最主流的輸入方式。
為了人機交互的新要求,訊飛輸入法在最新推出10.0版本上,搭載了“動態自適應編解碼語音識別引擎”,新增的唇形輔助輸入,能夠提高嘈雜環境及近距離多人說話的識別效果。該版本還優化了領域詞識別,可更精準的匹配游戲、醫療、旅游、購物等不同的場景詞匯。
除了語音功能邊界的拓展,訊飛輸入法10.0版本還基于“免切換”的理念,實現英文單詞連續手寫,即在輸入面板既可以手寫漢字也可以直接手寫完整的英文單詞。至此,訊飛輸入法已實現語音、拼音、手寫多種方式的中英文輸入免切換。
實際上,早在2016年,訊飛輸入法就提出來了“萬物互聯”的概念,認為未來人們的人機交互式是以語音為主,手勢和圖像為輔。
現如今,雖然智能手機依舊是最常見的終端形態,但也有越來越多的新設備正在出現。小到可穿戴的眼鏡、手表,大到智能家居、汽車電子等,都被賦予“生命力”。而隨著越來越多的設備被智能化,訊飛也越來越堅信自己選擇的方向是正確的。
從訊飛輸入法首次面世到現在,已經過去了整整10年時間。10年很長,世界發生了新的變化,要輸入的場景也發生了變化,訊飛輸入法也不斷的跨越手機終端,邁向AIOT時代,用戶可以在平板、電視車載和墨水屏的輸入技術。10年也很短,在大科技的時代,這夠是一家公司完成從0到1,從1到N的起步階段,未來要走的路還有很長。
如今,語音技術正當其時,訊飛輸入法的日語音交互次數已經達到10億次,累計服務設備數超5億,語音用戶占比超70%。在萬物互聯時代的呼喚下,“十年磨劍,再赴征程”,訊飛輸入法將憑借頂天的技術持續引領產品創新。
“我們要不斷的把最新的技術用到產品上面去,為廣大用戶創造更多的價值,我們要用人工智能建設美好世界。”章繼東說,作為以核心源頭技術與創新的公司,不論是上一個10年,還是下一個10年,訊飛的使命不會變。