隨著春節的喜慶氛圍彌漫全球,一款名為DeepSeek的國產AI應用迅速走紅,不僅彰顯了國產AI技術的崛起,也展示了生成式AI所帶來的前所未有的創新潛力。而在這場AI盛宴中,聲網適時推出了其Conversational AI Engine(聲網對話式AI引擎),為DeepSeek等大模型提供了無縫接入的能力,助力開發者輕松構建出超低延時的對話式AI應用場景。
聲網的這一對話式AI引擎,是基于全球廣泛認可的TEN framework開源框架構建的,它不僅實現了行業領先的650毫秒超低響應延遲,還具備對話人聲鎖定、全模型適配等關鍵優勢,為用戶帶來更加流暢自然的對話體驗。
聲網Conversational AI Engine的一大亮點是其全模型敏捷適配能力。通過獨創的全棧模型兼容體系,該引擎能夠無縫接入第三方云端大模型服務、企業私有化模型以及本地化部署的開源模型,實現跨架構模型的快速適配。這一技術不僅適用于新模型,對于老模型也同樣友好,通過標準化API,老模型也能實現一鍵式快速接入,大大縮短了接入周期,保障了企業AI模型資產的無損遷移和持續價值轉化。
在真實的對話場景中,打斷對方并提出新疑問是常有的事,而對于對話式AI來說,能否支持隨時打斷也成為了衡量其智能化的一個重要標準。聲網自主研發的AI VAD技術,能夠很好地適應人類對話的停頓、語氣和節奏,使得AI在對話過程中能夠隨時優雅地打斷對方,更加貼近人心。
聲網還針對大模型語音交互中存在的誤打斷問題進行了優化。在嘈雜的環境中,如商場、地鐵站、咖啡店等,背景人聲和環境噪音很容易干擾到人與AI的交互,導致AI誤觸發打斷機制,停止交互。為了解決這一問題,聲網技術團隊結合多年積累的AI降噪等音頻對話處理能力,智能屏蔽交互中的各類背景人聲與噪聲干擾,即使在嘈雜環境中,也能保證對話的精準和流暢。據測試,在噪雜環境下,聲網的方案誤打斷率較ChatGPT降低了50%。
除了誤打斷問題,多模態大模型在不穩定網絡環境下的交互穩定性和流暢性也是很多AI企業需要優化的方向。聲網憑借其在音視頻領域的深厚技術優勢和場景實踐,通過實時網絡覆蓋、網絡超強適應、海量終端適配等能力,打造出了全球一致的端云覆蓋體驗。即使在網絡不穩定的室外環境,聲網的智能路由+抗弱網算法也能實現跨區域絲滑互動,即使在面臨80%丟包的情況下,人與AI也能穩定交流。
目前,聲網的Conversational AI Engine已經開放了Private Beta版本的邀請測試。如果您對這款對話式AI引擎感興趣,想要體驗Demo或獲取產品測試接入的服務支持,可以關注聲網的官方渠道,了解更多詳情。