近日,“訊飛開放平臺”官方公眾號宣布,訊飛星火多模態交互大模型已正式上線,這一突破性的技術革新,標志著訊飛在人機交互領域邁出了重要一步。該模型不僅實現了從語音交互到音視頻流實時多模交互的跨越,還新增了“多模態、超擬人和個性化”三大核心能力,將語音、視覺和數字人交互完美融合,用戶只需一鍵調用,即可享受便捷的智能交互體驗。
訊飛星火多模態交互大模型首次引入了超擬人數字人技術,其數字人的動作與語音內容精準同步,表情和動作生成迅速,讓AI更加生動逼真。通過整合文本、語音和表情,該模型實現了跨模態的語義一致性,確保了情感表達的連貫性和真實性。
在交互速度方面,訊飛星火大模型同樣表現出色。它采用統一的神經網絡,實現了語音到語音的端到端建模,響應迅速且流暢。同時,該模型能夠敏銳感知情緒變化,并根據指令自由調整聲音的節奏、大小和角色設定,為用戶帶來更加個性化的交互體驗。
訊飛星火多模態交互大模型還支持多模態視覺交互,能夠全面感知具體背景場景和物流狀態等信息,對任務的理解更加精準。通過綜合判斷語音、手勢、行為和情緒等因素,該模型能夠作出合適的回復,實現更加自然和智能的交互。
用戶現在可以與數字人進行語音和視頻通話,享受自然流暢的對話體驗。數字人的表情和動作與說話內容完美匹配,使得交流更加生動有趣。星火超擬人數字人還支持識別攝像頭中的內容,如識別不同角色的組合、產品的品牌和作用以及花的品類等,進一步拓展了其應用場景。