阿里巴巴近日正式推出了其通義千問家族的最新成員——Qwen2.5-Omni-7B,這是一款具備端到端多模態(tài)處理能力的旗艦?zāi)P汀T撃P湍軌蚣磿r(shí)處理包括文本、圖像、音頻和視頻在內(nèi)的多種輸入形式,并以實(shí)時(shí)流式的方式輸出文本與自然語音合成內(nèi)容。
Qwen2.5-Omni-7B已在Hugging Face、魔搭、DashScope等平臺(tái)以Apache 2.0開源協(xié)議發(fā)布,其相關(guān)論文也全面開源,向公眾詳細(xì)揭示了背后的技術(shù)創(chuàng)新。用戶不僅能夠通過Demo體驗(yàn)互動(dòng)功能,還能在Qwen Chat平臺(tái)上像進(jìn)行電話和視頻通話一樣與Qwen進(jìn)行實(shí)時(shí)交流。
千問團(tuán)隊(duì)表示,Qwen2.5-Omni采用了創(chuàng)新的Thinker-Talker架構(gòu),這一架構(gòu)不僅支持跨模態(tài)理解,還能實(shí)現(xiàn)流式文本和語音響應(yīng),同時(shí)支持分塊輸入和即時(shí)輸出。在與同規(guī)模模型的基準(zhǔn)測(cè)試中,Qwen2.5-Omni展現(xiàn)出了顯著優(yōu)勢(shì),超越了包括Gemini 1.5 Pro和GPT-4o-mini在內(nèi)的閉源模型。
在音頻處理能力上,Qwen2.5-Omni相較于同體積的Qwen2-Audio更為出色,與Qwen2.5-VL-7B保持相當(dāng)水平。在權(quán)威的多模態(tài)理解測(cè)試OmniBench上,Qwen2.5-Omni更是取得了SOTA表現(xiàn),超越了Gemini 1.5 Pro,提升幅度高達(dá)30.8%。
Qwen2.5-Omni在端到端語音指令跟隨方面的表現(xiàn)與文本輸入處理同樣出色,在MMLU通用知識(shí)理解和GSM8K數(shù)學(xué)推理等基準(zhǔn)測(cè)試中均取得了不俗的成績。Qwen2.5-Omni在現(xiàn)實(shí)世界的多模態(tài)場景中也有著廣泛的應(yīng)用潛力。
例如,在烹飪場景中,用戶只需向Qwen2.5-Omni展示食材,它就能迅速提供食譜建議。Qwen2.5-Omni還能聽懂音樂,分析歌曲風(fēng)格并提出創(chuàng)作建議。在繪畫時(shí),它能根據(jù)草圖判斷繪畫內(nèi)容并提供構(gòu)圖建議。無論是戶外天氣判斷,還是學(xué)習(xí)輔助解題和論文閱讀,Qwen2.5-Omni都展現(xiàn)出了強(qiáng)大的通用多模態(tài)能力。
Qwen2.5-Omni的Thinker模塊負(fù)責(zé)處理多模態(tài)輸入,生成高層語義表征及對(duì)應(yīng)文本內(nèi)容,而Talker模塊則負(fù)責(zé)以流式方式接收Thinker的輸出,并流暢合成語音。這種Thinker-Talker雙核架構(gòu),結(jié)合創(chuàng)新的TMRoPE位置編碼技術(shù),使得Qwen2.5-Omni在多模態(tài)理解基準(zhǔn)測(cè)試中取得了卓越表現(xiàn)。
在OmniBench測(cè)試中,Qwen2.5-Omni的得分為56.13%,遠(yuǎn)超第二名的42.91%。在視頻到文本任務(wù)上,Qwen2.5-Omni也超越了原本的開源SOTA模型和GPT-4o-mini。在其他基準(zhǔn)測(cè)試中,如語音識(shí)別、翻譯、音頻理解、圖像推理、視頻理解以及語音生成等方面,Qwen2.5-Omni的成績均超過了Qwen家族的其他單模態(tài)模型。
Qwen2.5-Omni的推出,無疑為阿里巴巴在多模態(tài)人工智能領(lǐng)域樹立了新的里程碑。隨著技術(shù)的不斷進(jìn)步,Qwen2.5-Omni未來有望在更多領(lǐng)域發(fā)揮重要作用,為用戶提供更加智能、便捷的服務(wù)。