阿里國際數(shù)字貿(mào)易集團旗下的AI研發(fā)團隊AIDC-AI,近期隆重推出了其最新的多模態(tài)大語言模型——Ovis2.5。此次發(fā)布包含了9B和2B兩種參數(shù)規(guī)模版本,專為經(jīng)濟型視覺推理應(yīng)用而生,樹立了多模態(tài)AI領(lǐng)域的新典范。
Ovis2.5在性能表現(xiàn)上尤為突出,得益于其獨特的核心功能設(shè)計。首先,該模型引入了NaViT視覺編碼器,實現(xiàn)了原生分辨率感知,無需犧牲圖像細節(jié)即可捕捉全局結(jié)構(gòu),保證了視覺處理的高品質(zhì)。這一特性使得Ovis2.5在處理復(fù)雜圖像信息時游刃有余。
Ovis2.5還具備深度推理能力,其可選的“思考模式”可能借鑒了阿里Qwen3的先進技術(shù)。該模式不僅支持線性思維鏈推理,還能進行自我校驗和修正,用戶可根據(jù)需求配置思考預(yù)算,從而提高了問題解決的準確性和效率。這一創(chuàng)新設(shè)計,無疑為Ovis2.5增添了強大的智力支持。
在OCR領(lǐng)域,Ovis2.9B和2B版本均展現(xiàn)出卓越性能,尤其在復(fù)雜圖表分析、文檔理解(涵蓋表格和表單)方面,達到了業(yè)界領(lǐng)先水平。這一特性為眾多實際應(yīng)用場景提供了強有力的技術(shù)支撐,如文檔自動化處理、數(shù)據(jù)分析等。
Ovis2.5在圖像推理、視頻理解和視覺定位等多個基準測試中同樣表現(xiàn)優(yōu)異,充分展示了其強大的通用多模態(tài)處理能力。這一全面而強大的功能集,使得Ovis2.5在多模態(tài)AI應(yīng)用中具有極高的實用價值。
AIDC-AI此次發(fā)布Ovis2.5,不僅彰顯了其在多模態(tài)AI技術(shù)領(lǐng)域的持續(xù)創(chuàng)新能力,也為開發(fā)者和企業(yè)用戶帶來了一種高效且易于部署的解決方案。尤其對于那些需要結(jié)合視覺與文本推理的應(yīng)用場景,Ovis2.5無疑是一個理想的選擇。
目前,Ovis2.5已在GitHub和Hugging Face等平臺開源,這一舉措將進一步促進全球AI社區(qū)的協(xié)作與創(chuàng)新,推動多模態(tài)大語言模型技術(shù)的快速發(fā)展。
Ovis2.5的發(fā)布,標志著AIDC-AI在Ovis系列模型研發(fā)上取得了又一重大突破,為多模態(tài)大語言模型的發(fā)展注入了強勁動力。