OpenAI不久前發布的GPT-4o大模型,再一次讓人們看到了AI技術的強大。它在極低時延、極度擬人化方面展現出了極其絲滑的效果。在音頻識別表現上,GPT-4o還顯著提高了所有語言的語音識別性能,特別是在資源較少的語言上表現尤為出色。
事實上,在人工智能的浪潮中,語音識別技術已經成為連接人類與機器的橋梁。從1995年 Dragon Dictate的桌面孤立詞語音識別,到2011年蘋果的手機語音助手SIRI,再到當下百花齊放的各種智能語音應用,語音識別不斷創新,解鎖新的應用。
大模型時代 語音識別場景化定制成趨勢
語音識別技術,也被稱為自動語音識別Automatic Speech Recognition(ASR),是通過計算機自動將人類的語音內容轉換為相應文字的技術。通俗來講,語音識別就是機器的“耳朵”,在人與機器進行語音交流的時候,讓機器聽得懂人類在說什么的前提。
大模型爆發推動文本內容的理解和內容生產能力的提升,為語音識別的應用場景提供了更加廣泛的可能性,交互場景從生活擴展到企業應用。據市場研究機構Meticulous Market Research預測,到2030年,全球語音和語音識別市場將達到560.7億美元,復合年增長率為19.1%。
另一方面,隨著技術的突破,語音識別的性能也得到了顯著提升,需求從識別的速度、精度轉移到一些更加復雜的問題,也帶來了更復雜的模型訓練和推理任務。
但市場上常見的語音識別模型,大多只適用通用場景。一旦脫離特定場景和上下文,語音識別的準確度會急劇下降,無法達到實用的要求。因此,針對不同的聲學環境、發言習慣和專業領域進行場景化定制的精訓成為語音識別技術發展的重要方向。
標貝科技語音識別定制化方案
標貝科技深耕智能交互領域多年,積累了豐富的行業經驗。為了提高語音識別在垂直場景的準確率及穩定性,標貝科技聚焦應用場景,推出語音識別定制化方案。為企業提供語音識別技術的模型選擇、精訓和部署等一站式定制化服務,助力企業大模型快速落地業務場景。
標貝科技語音識別定制方案基于conformer端到端模型結構的基礎上創新改進,在建模單元上引入了音節信息,將傳統的GMM-HMM的對齊信息引入到前期訓練中加速收斂,實現了在復雜環境下擁有更好的魯棒性和識別效果。針對行業專業術語、小區域方言、個性化語音習慣、口音多樣性、背景噪音和自然對話等特定場景,均實現卓越的準確率。
相較于市面其他通用識別模型,標貝科技的語言定制模型識別準確率提升近3-5個百分點,熱詞糾錯功能準確率達99%以上,真正做到專注、專業。
在接入方式上,標貝科技語音識別定制化方案可以支持通過標貝開發者平臺的API接口調用,還可以支持少量服務器的輕量級多機高可用以及實現彈性擴容的大規模容器集群的私有云部署,滿足不同客戶的接入需求,帶來更好的服務體驗。
目前,標貝科技語音識別定制化方案已經開始融入各行各業,在多個應用場景落地。例如,在智慧政務場景,標貝科技為山東某市政機關定制帶口音普通話識別模型。通過采集大量場景化的當地用戶口音的音頻數據和政務文本數據,優化語音識別引擎。在政務服務熱線、前臺接待、咨詢臺等公共事務場景中,客服均能秒懂帶口音的普通話,增強政務溝通效率和市民滿意度。
在智慧醫療領域,標貝科技為某醫療機構定制實時語音轉錄方案。通過引入豐富的醫療文本數據,確保專業術語的精確識別。同時借助熱詞更新功能,持續優化識別模型效果,識別準確率在原有基礎上提高了6%,極大的降低了病歷記錄錯誤,簡化醫生工作流程。
大模型時代的到來,為語音識別帶來了無限可能。隨著未來技術的持續進步和應用場景的不斷拓展,語音識別場景化定制能力將得到進一步提升。標貝科技將加大研發投入,打造具有競爭力的語音識別產品和服務,滿足多語種、多方言、多場景、個性化的應用需求,推動各行各業數字化轉型和升級。