小米發(fā)布推理大模型Xiaomi MiMo，7B參數(shù)超越眾多強(qiáng)者，已開(kāi)源！-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.ylptlb.cn 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：52011
待審：79
小程序：12
文章：1184964
會(huì)員：801

首頁(yè) > 新聞資訊 > 手機(jī)數(shù)碼 >正文

小米發(fā)布推理大模型Xiaomi MiMo，7B參數(shù)超越眾多強(qiáng)者，已開(kāi)源！

發(fā)布時(shí)間：2025-04-30 10:04:39 作者：網(wǎng)友整理

小米公司近期在人工智能領(lǐng)域取得了突破性進(jìn)展，正式宣布將其專為推理能力打造的大模型“Xiaomi MiMo”面向全球開(kāi)源。這一舉措不僅彰顯了小米在AI技術(shù)上的雄厚實(shí)力，更標(biāo)志著其在推理模型研發(fā)上的重大飛躍。

“Xiaomi MiMo”的問(wèn)世，旨在突破當(dāng)前預(yù)訓(xùn)練模型在推理能力上的局限性。在多個(gè)公開(kāi)測(cè)評(píng)集中，該模型以僅70億參數(shù)的規(guī)模，展現(xiàn)出了超越大型閉源及開(kāi)源推理模型的卓越性能。特別是在數(shù)學(xué)推理（AIME24-25）和代碼競(jìng)賽（LiveCodeBench v5）上，MiMo的表現(xiàn)尤為亮眼，成功擊敗了OpenAI的o1-mini和阿里云的QwQ-32B-Preview等強(qiáng)勁對(duì)手。

在強(qiáng)化學(xué)習(xí)領(lǐng)域，MiMo同樣展現(xiàn)出了非凡的潛力。與市面上廣泛使用的強(qiáng)化學(xué)習(xí)起步模型相比，如DeepSeek-R1-Distill-7B和Qwen2.5-32B，MiMo-7B在性能上顯著領(lǐng)先。這一成就的取得，得益于MiMo在預(yù)訓(xùn)練和后訓(xùn)練階段所采取的一系列創(chuàng)新策略。

在預(yù)訓(xùn)練階段，MiMo深入挖掘富含推理內(nèi)容的語(yǔ)料庫(kù)，并合成了約2000億個(gè)推理數(shù)據(jù)tokens。通過(guò)三階段逐步提升訓(xùn)練難度的策略，MiMo的總訓(xùn)練量達(dá)到了驚人的25萬(wàn)億個(gè)tokens。這一階段的努力，為MiMo后續(xù)的卓越表現(xiàn)奠定了堅(jiān)實(shí)的基礎(chǔ)。

進(jìn)入后訓(xùn)練階段，MiMo則更加注重強(qiáng)化學(xué)習(xí)算法和框架的高效穩(wěn)定性。為了緩解困難算法問(wèn)題中的獎(jiǎng)勵(lì)稀疏問(wèn)題，MiMo提出了“測(cè)試難度驅(qū)動(dòng)獎(jiǎng)勵(lì)”策略。同時(shí)，引入“簡(jiǎn)單數(shù)據(jù)重采樣”策略以穩(wěn)定RL訓(xùn)練過(guò)程。MiMo還創(chuàng)新性地設(shè)計(jì)了“無(wú)縫部署”系統(tǒng)，使得RL訓(xùn)練和驗(yàn)證過(guò)程分別加速了2.29倍和1.96倍。

目前，“Xiaomi MiMo”全系列模型已正式在HuggingFace平臺(tái)上開(kāi)源。用戶只需訪問(wèn)該平臺(tái)，即可輕松獲取并嘗試這一前沿的推理模型。小米的這一舉措，無(wú)疑將為全球AI開(kāi)發(fā)者提供更加豐富的資源和選擇，共同推動(dòng)人工智能技術(shù)的不斷發(fā)展和創(chuàng)新。

分享到：

標(biāo)簽：小米強(qiáng)者開(kāi)源推理模型