聲網近日宣布了一項重大技術創新——對話式AI引擎的正式發布。這款引擎以其卓越的性能和多功能性,為AI交互體驗樹立了新的標桿。
聲網的對話式AI引擎具備五大核心優勢,其中包括650毫秒的超低延時響應、優雅打斷功能、以及全模型適配等。這些特性使得任何文本大模型都能迅速升級為具備多模態交互能力的對話式AI。在價格方面,聲網經過內部測算,宣布使用該引擎的每分鐘成本僅為0.098元,極具競爭力。
在現場演示中,聲網的生成式AI產品負責人毛玉杰與對話式AI引擎進行了實時互動,展示了中英文翻譯、優雅打斷以及餐廳推薦等功能。這些演示充分展示了引擎的靈活性和實用性。
聲網AI RTE產品線負責人姚光華用“多、快、好、省”四個字概括了這款引擎的主要優勢。多指的是智能多樣性和音色多樣性,用戶可以選擇和定制不同的模型和語音合成方案。快則體現在響應速度和打斷速度上,引擎的中位數響應延遲為650毫秒,打斷延時中位數為340毫秒。好則體現在引擎的高情商和真擬人特性上,即使在嘈雜環境中也能準確識別對話內容。省則體現在開發效率上,姚光華透露,從引擎控制臺到模型開口說話,僅需2行代碼和15分鐘。
在價格策略上,聲網提供了極具吸引力的方案。智能體通話每分鐘僅需0.098元,并附贈1000分鐘的免費通話時長。這意味著,平均每次對話的成本極低,對于頻繁使用AI交互的企業和個人來說,無疑是一個巨大的福音。
姚光華還分享了對話式AI的發展里程碑。從OpenAI發布GPT-4開始,對話式AI逐漸走進消費者的視野。隨后,OpenAI和聲網分別發布了Realtime API,進一步推動了對話式AI的發展。而今天,聲網的對話式AI引擎作為全球首個同類產品正式發布,標志著對話式AI技術邁入了一個新的階段。
聲網的對話式AI引擎橫跨模態感知和模態融合層,能夠為用戶帶來智能價值、情感共鳴以及時間價值。通過感知物理世界的信息,并進行多模態處理,引擎能夠更準確地理解和響應用戶的指令和需求。
借助聲網的對話式AI引擎,開發者可以迅速部署各種對話式AI場景,如智能助手、虛擬陪伴、口語陪練、智能客服以及智能硬件等。這將極大地加速對話式AI技術在各行各業的應用和普及,為用戶帶來更加智能、便捷和人性化的交互體驗。