【ITBEAR】蘋(píng)果公司近期宣布,其多模態(tài)AI大模型MM1.5正式推出,該模型基于前代MM1架構(gòu)進(jìn)行升級(jí),擁有高達(dá)300億的參數(shù)規(guī)模。
MM1.5模型繼續(xù)堅(jiān)持?jǐn)?shù)據(jù)驅(qū)動(dòng)的訓(xùn)練原則,深入探索了不同訓(xùn)練周期中混合數(shù)據(jù)對(duì)模型性能的影響,相關(guān)模型文檔已在Hugging Face平臺(tái)發(fā)布。
此次推出的MM1.5模型提供了從10億到300億的多種參數(shù)規(guī)模選擇,具備圖像識(shí)別與自然語(yǔ)言推理的能力。
在新版本中,蘋(píng)果研發(fā)團(tuán)隊(duì)對(duì)數(shù)據(jù)混合策略進(jìn)行了優(yōu)化,顯著提升了模型在多文本圖像理解、視覺(jué)引用與定位以及多圖像推理等方面的性能。
據(jù)相關(guān)論文介紹,MM1.5在持續(xù)預(yù)訓(xùn)練階段引入了高質(zhì)量的OCR數(shù)據(jù)和合成圖像描述,大幅提高了模型對(duì)包含大量文本的圖像的理解能力。
研究人員在監(jiān)督式微調(diào)階段對(duì)不同數(shù)據(jù)類(lèi)型對(duì)模型表現(xiàn)的影響進(jìn)行了深入分析,優(yōu)化了視覺(jué)指令微調(diào)數(shù)據(jù)的混合方式,使得即便是小規(guī)模的模型版本也能展現(xiàn)出出色的性能,實(shí)現(xiàn)了更高的效率。
蘋(píng)果公司還推出了專(zhuān)門(mén)用于視頻理解的MM1.5-Video模型以及專(zhuān)門(mén)處理移動(dòng)設(shè)備用戶(hù)界面(UI)理解的MM1.5-UI模型。
MM1.5-UI模型未來(lái)有望成為iOS背后的核心AI技術(shù),能夠處理各種視覺(jué)引用與定位任務(wù),總結(jié)屏幕上的功能,甚至通過(guò)與用戶(hù)的對(duì)話(huà)進(jìn)行交互。