小米科技近期推出的MiMo-VL多模態(tài)人工智能模型,在多個(gè)技術(shù)領(lǐng)域內(nèi)展現(xiàn)出了非凡的能力,成功接棒了先前的MiMo-7B模型。該模型在圖像、視頻以及語(yǔ)言理解等多模態(tài)任務(wù)上的表現(xiàn),顯著超越了同級(jí)別的標(biāo)桿模型Qwen2.5-VL-7B。尤為在GUI Grounding這一特定任務(wù)上,MiMo-VL的表現(xiàn)甚至能夠與專業(yè)模型相抗衡,預(yù)示著它在迎接智能體(Agent)時(shí)代方面已做好了充分準(zhǔn)備。
在涉及多模態(tài)推理的挑戰(zhàn)中,MiMo-VL-7B模型的表現(xiàn)尤為亮眼。盡管其參數(shù)規(guī)模僅為70億,卻在奧林匹克競(jìng)賽基準(zhǔn)測(cè)試(OlympiadBench)以及多個(gè)數(shù)學(xué)競(jìng)賽(如MathVision和MathVerse)中,大幅領(lǐng)先參數(shù)規(guī)模達(dá)到其十倍的阿里模型Qwen-2.5-VL-72B和QVQ-72B-Preview。同時(shí),它還超越了非開(kāi)源的GPT-4o模型。在小米內(nèi)部的大模型競(jìng)技場(chǎng)真實(shí)用戶體驗(yàn)評(píng)估中,MiMo-VL-7B同樣超越了GPT-4o,成為了開(kāi)源模型中的領(lǐng)先者。
在實(shí)際應(yīng)用場(chǎng)景中,MiMo-VL-7B展現(xiàn)出了卓越的復(fù)雜圖像推理和問(wèn)答能力。在涉及多達(dá)十幾步的GUI操作中,該模型也表現(xiàn)出了不俗的潛力。例如,它能夠幫助用戶將小米SU7商品添加到心愿列表中,這一功能在實(shí)際應(yīng)用中極具價(jià)值。MiMo-VL-7B之所以擁有如此全面的視覺(jué)感知能力,主要得益于其高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)以及創(chuàng)新的混合在線強(qiáng)化學(xué)習(xí)算法(MORL)。
為了構(gòu)建這一多模態(tài)模型,小米收集了涵蓋圖像-文本對(duì)、視頻-文本對(duì)以及GUI操作序列等多種數(shù)據(jù)類型的高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù),總量達(dá)到了2.4萬(wàn)億個(gè)tokens。這些數(shù)據(jù)經(jīng)過(guò)了嚴(yán)格的清洗和合成處理。在預(yù)訓(xùn)練過(guò)程中,小米還通過(guò)分階段調(diào)整不同類型數(shù)據(jù)的比例,進(jìn)一步強(qiáng)化了模型的長(zhǎng)程多模態(tài)推理能力。混合在線強(qiáng)化學(xué)習(xí)算法融合了文本推理、多模態(tài)感知與推理以及人類反饋強(qiáng)化學(xué)習(xí)(RLHF)等多種反饋信號(hào),并通過(guò)在線強(qiáng)化學(xué)習(xí)算法穩(wěn)定加速訓(xùn)練過(guò)程,從而全方位提升了模型的推理、感知性能和用戶體驗(yàn)。
更多關(guān)于MiMo-VL模型的信息,可以訪問(wèn)相關(guān)鏈接:https://huggingface.co/XiaomiMiMo。