小米公司近期在人工智能領(lǐng)域取得了突破性進(jìn)展,正式宣布將其專為推理能力打造的大模型“Xiaomi MiMo”面向全球開(kāi)源。這一舉措不僅彰顯了小米在AI技術(shù)上的雄厚實(shí)力,更標(biāo)志著其在推理模型研發(fā)上的重大飛躍。
“Xiaomi MiMo”的問(wèn)世,旨在突破當(dāng)前預(yù)訓(xùn)練模型在推理能力上的局限性。在多個(gè)公開(kāi)測(cè)評(píng)集中,該模型以僅70億參數(shù)的規(guī)模,展現(xiàn)出了超越大型閉源及開(kāi)源推理模型的卓越性能。特別是在數(shù)學(xué)推理(AIME24-25)和代碼競(jìng)賽(LiveCodeBench v5)上,MiMo的表現(xiàn)尤為亮眼,成功擊敗了OpenAI的o1-mini和阿里云的QwQ-32B-Preview等強(qiáng)勁對(duì)手。
在強(qiáng)化學(xué)習(xí)領(lǐng)域,MiMo同樣展現(xiàn)出了非凡的潛力。與市面上廣泛使用的強(qiáng)化學(xué)習(xí)起步模型相比,如DeepSeek-R1-Distill-7B和Qwen2.5-32B,MiMo-7B在性能上顯著領(lǐng)先。這一成就的取得,得益于MiMo在預(yù)訓(xùn)練和后訓(xùn)練階段所采取的一系列創(chuàng)新策略。
在預(yù)訓(xùn)練階段,MiMo深入挖掘富含推理內(nèi)容的語(yǔ)料庫(kù),并合成了約2000億個(gè)推理數(shù)據(jù)tokens。通過(guò)三階段逐步提升訓(xùn)練難度的策略,MiMo的總訓(xùn)練量達(dá)到了驚人的25萬(wàn)億個(gè)tokens。這一階段的努力,為MiMo后續(xù)的卓越表現(xiàn)奠定了堅(jiān)實(shí)的基礎(chǔ)。
進(jìn)入后訓(xùn)練階段,MiMo則更加注重強(qiáng)化學(xué)習(xí)算法和框架的高效穩(wěn)定性。為了緩解困難算法問(wèn)題中的獎(jiǎng)勵(lì)稀疏問(wèn)題,MiMo提出了“測(cè)試難度驅(qū)動(dòng)獎(jiǎng)勵(lì)”策略。同時(shí),引入“簡(jiǎn)單數(shù)據(jù)重采樣”策略以穩(wěn)定RL訓(xùn)練過(guò)程。MiMo還創(chuàng)新性地設(shè)計(jì)了“無(wú)縫部署”系統(tǒng),使得RL訓(xùn)練和驗(yàn)證過(guò)程分別加速了2.29倍和1.96倍。
目前,“Xiaomi MiMo”全系列模型已正式在HuggingFace平臺(tái)上開(kāi)源。用戶只需訪問(wèn)該平臺(tái),即可輕松獲取并嘗試這一前沿的推理模型。小米的這一舉措,無(wú)疑將為全球AI開(kāi)發(fā)者提供更加豐富的資源和選擇,共同推動(dòng)人工智能技術(shù)的不斷發(fā)展和創(chuàng)新。