聲網在北京隆重發布了一款名為“對話式AI引擎”的創新產品,該發布會以“AI開口,互動無界”為主題,吸引了眾多行業內外人士的關注。這款全球首創的對話式AI引擎,憑借其卓越的五大核心能力,成功地將任意文本大模型升級為了具備“能說會道”功能的對話式多模態大模型,為開發者帶來了前所未有的便捷與高效。
這款AI引擎的五大核心能力包括:模型選擇多樣性、響應速度超快、打斷機制靈活、對話體驗卓越以及開發成本低廉。它支持全球幾乎所有大模型廠商,如DeepSeek、ChatGPT等,同時兼容全球主流語音合成供應商,讓開發者能夠自由選擇最適合自己的模型。它還具備音視頻SDK支持,確保在多設備上的兼容性。
在響應速度方面,聲網通過全鏈路深度優化,實現了語音對話延遲中位數低至650ms的超快響應,讓AI能夠秒回用戶的提問。同時,其自研的“智能打斷”技術,模擬了真人對話的節奏,使得用戶可以隨時打斷與AI的對話,響應速度低至340ms,大大提升了對話的自然度和流暢度。
在對話體驗上,對話式AI引擎同樣表現出色。其“選擇性注意力鎖定”功能能夠屏蔽95%的環境人聲、噪聲干擾,精準識別對話人聲。同時,它還具備優秀的抗弱網、抗丟包能力,即使在80%丟包率下仍能穩定流暢對話,斷網3-5秒也能保持對話的連續性。
對于開發者而言,聲網對話式AI引擎的開發部署過程極為簡便。只需2行代碼,15分鐘內就能讓AI開口說話,大大降低了開發門檻。同時,其成本也極具競爭力,AI語音對話的價格僅為0.098元/分鐘,單次還贈送1000分鐘的使用時長。自研的“智能打斷”功能作為增值服務,也僅需0.042元/分鐘,為開發者提供了更低成本的AI應用場景探索機會。
聲網AI RTE產品線負責人姚光華表示,經過與客戶的深入打磨及實際使用場景調研,他們發現用戶與AI每產生1次對話中,平均會有約3輪問答,計算下來平均對話時長約為21.1秒,單次成本僅需3分錢。如果每月對話次數達到15次,那么月成本不到5毛錢,年成本也僅需5元,這無疑為開發者提供了極大的成本節約空間。
聲網對話式AI引擎的推出,將推動智能助手、智能硬件等場景走向火熱。通過這款引擎,開發者可以快速部署智能助手、虛擬陪伴、口語陪練、智能客服、智能硬件等對話式AI場景,為用戶帶來更加便捷、智能的生活體驗。例如,在智能硬件場景中,通過嵌入對話式AI引擎,可實現語音控制、智能看護、智能陪伴和個性化服務,將智能設備升級為智能硬件體,適用于AI玩具、AI教育硬件、AI陪伴設備、家居語音助手、穿戴設備個人助手等多種應用場景。