通過語音交流是人機設備交互中最容易、最簡單的方式,人類針對語音技術的研發經歷了50多年,直到上個世紀90年代才有成型的產品出現。有專家認為,語音識別產品將是繼電話、計算機、Internet之后,信息產業界的又一次革命。隨著蘋果Siri的發布,建立在語音交互基礎上的個人智能語音類產品成了移動互聯網未來發展趨勢之一。
最簡單的交互,蘊含著最復雜的技術,單是語音識別技術就蘊含了語音學、生理學、心理學和計算機學等方面的相關知識,如何將這些知識量化、建模并用于語音識別,這其中的復雜程度不言而喻。將語音識別輸入到計算機,使得機器能夠“聽懂”,并按照語音指令執行,又有著復雜的邏輯程序。
智能語音行業對技術的要求非常高,不但需要在技術研發方面有非常大的科研投入,還要求在技術方面有豐厚的積累,這是小型的科技公司、創業公司無法涉獵和完善的服務領域。高門檻導致對接入該領域的企業不僅擁有強大的技術實力,并且能夠有開放的心態向外輸出技術,帶動行業的整體發展。
百度打造“技術+產品+服務”模式 語音技術先行
在移動互聯網時代,語音、圖像識別等多媒體技術均得到了更廣泛的應用。作為貫穿移動互聯網產品的基礎服務,語音技術顯得格外重要。百度正從技術向服務轉型,打造“技術+產品+服務”綜合體,在這個模式下技術顯然是百度發展的重要依托,通過技術轉到產品和服務,進而增強平臺所引發的產業鏈連鎖效應。
百度開放云的建立很好的印證了百度對于服務綱領的貫徹,在百度構架的大生態環境中,不僅有連接用戶的產品(百度地圖、百度瀏覽器),還具備連接開發者的產品(語音技術、人臉識別),繁榮開發者生態,并服務于移動互聯網總的戰略意圖。
語音技術的應用范圍貫穿整個百度產品線,從出生便肩負了非常大的責任。通過兩年的不斷積累,百度語音已經應用在多款百度自有產品中。百度語音技術的開放也標志著這些產品的成熟,并且成為推動國內語音市場蓬勃興起的催化劑。
當然百度語音技術的未來定位也不僅僅局限在移動互聯網,隨著可穿戴設備的逐漸興起、家庭互聯網的日漸完善和汽車領域大舉拓展互聯網,對語音應用的需求也會成倍增長。未來百度語音技術的應用范圍將串聯起以端為節點的全網設備。
百度語音最能讀懂中文的語音
眾所周知,蘋果Siri開啟了語音技術的快速發展,也促進了一大批企業從事語音技術的研發工作,點燃了整個智能語音產業。百度擁有非常好的搜索技術積累,在大數據整合處理方面也有完善的開發機制,這對于語音技術的開發工作有著非常大的幫助。可以說百度語音技術是站在巨人的肩膀上起跑。簡單的理解百度語音技術,有著非常突出的特點和超越Siri的實力。
l 嵌入式連續語音識別識別率準確到極致
目前,百度嵌入式語音識別已經集成了當今最為熱門和領先的模式識別技術,深度神經網絡技術(DNN),識別的速度在一倍實時以內。由于DNN的計算對硬件要求比較高,百度完美的解決了應用手機GPU進行DNN計算,目前可以兼容絕大部分當前市面上的手機。
嵌入式連續語音識別不同于Server語音識別,所有識別計算工作都在用戶使用的嵌入式設備上,對計算資源要求非常嚴格,計算資源包括數據的存儲空間、運行內存大小等。百度開發的嵌入式連續語音識別解碼器,可能實現快速高效的解碼,同時還允許采用統計語言模型和語義文法混合的語言學知識,能夠支持連續語音隨意說。
依托嵌入式語音識別技術,百度語音產品首次在中文語音識別率上突破90%,開創了業界的先河,并且語音識別率絕對值短時間提升3% - 4%。
l 從人名入手讓機器更能讀懂中文
百度語音技術做出的另一個突破,就是增強對中文的識別能力。眾所周知,中文是世界上最復雜的語言,所以針對中文的優化工作百度語音從未停歇。甚至在很多語義、語序上的處理超越了世界頂尖的Siri產品。正如很多年前,百度搜索宣傳的一樣,和老外相比百度更懂得中文。
百度語音針對中文優化工作第一步就是從中文姓名開始。現在,應用了百度語音技術的百度語音助手產品,對中文名字的識別準確率接近100%。用戶可以直接對著手機說“給張三發短信”、“給李四打電話”。這是其他的語音產品很難做到這一點,究其原因,語音團隊采用語言模型自適應技術,在云端構筑了一個龐大的名字模型,一舉提升了中文名字的識別精度。
語音識別技術是語音產品的基礎,只有識別技術過關,機器才能聽懂用戶的話,才能領會用戶的意圖,從而更好為用戶創造方便。但解析這些語言指令便需要非常多的語言邏輯關系,尤其中文的語言邏輯關系又極其復雜。譬如:“我在北京路上”,這句話系統的識別就會出現很多歧義,用戶是在北京的路上,還是在其他地區的北京路上?針對歧義關系的處理,百度語音也有非常多的算法調整。就是這樣懂得中文的人在不斷的開發與創新,才使得百度語音產品在市場占有率、技術水平、用戶體驗等多方面都超越了蘋果與谷歌
百度語音裝備自有產品 顛覆用戶使用習慣
美國科幻大片中經常會有語音控制的橋段,通過語音實現人機交互,從而控制設備執行命令。這種場景并不遙遠,目前的語音技術已經能夠實現簡單的交互命令。隨著語音技術的逐步成熟,用戶即將步入“只動口不動手”的時代。
談起語音交互技術的未來,賈磊說道:“現在使用的搜索模式是單次搜索模式,而語音搜索則是多交互的搜索模式,兩者有本質上的區別。舉個例子,一個人需要買鮮花送母親。現在的搜索模式,需要在搜索引擎輸入關鍵詞“送什么花給母親”,再從萬千的搜索結果中甄別,得到結果后,用戶需要再次輸入“鮮花預定”查找靠譜的鮮花店進行預定,整個過程全由用戶人工處理。通過語音的多交互搜索就變得非常簡單,用戶直接對手機說“我想送我母親鮮花”,手機會反饋給他買康乃馨。用戶可以繼續交互“幫我預定一束”,手機會反饋通過哪家商城預定,用戶給出答案后即可完成預定。這就是未來智能人機交互的場景,機器能聽懂人的語言理解人的語言,實現人和機器的自由交互。”
百度語音技術目前已應用在多款百度產品中,包括百度搜索、百度語音助手、百度瀏覽器等產品。其中百度語音助手最值得用戶關注,這款產品即是前面介紹的采用多交互模式的語音產品。用戶可通過語音控制手機的多種行為,譬如,打電話、發短信。
百度語音相伴開發者共同進步
百度秉承開放平臺的原則,在對開發者生態的投入上一直非常積極強勢。目前,百度語音識別技術已經面向開發者提供了大量技術支持和API接口,幫助開發者更好完成開發。因其市場所具備的龐大需求,百度開放語音技術是必然的結果。
“百度將自己先進的語音技術開放給開發者,對于整個移動互聯網行業來說,是非常利好的消息。不必投入語音技術的研發,使得我們的團隊能夠更專注于公交領域。”彩虹公交技術負責人表示。
百度語音技術開放為移動互聯網開發者、創業者、軟硬件廠商等提供了無限的想象空間。在移動互聯創業如火如荼的時下,也新添了一件幸福創業利器。未來開放將會更大力度,為開發者提供完整的服務體系。