小紅書首推大模型dots.llm1，中文性能力壓DeepSeek-V3-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：52011
待審：79
小程序：12
文章：1184964
會員：801

小紅書首推大模型dots.llm1，中文性能力壓DeepSeek-V3

發(fā)布時間：2025-06-10 20:08:31 作者：網友整理

近日，國內社交內容平臺小紅書在人工智能領域邁出了重要一步，宣布開源其首個大型語言模型dots.llm1。這一舉動不僅為開源社區(qū)增添了一名重量級的新成員，也彰顯了小紅書在技術創(chuàng)新上的雄厚實力。

dots.llm1是一個擁有1420億參數的混合專家（MoE）模型，但在實際應用中，它僅需激活140億參數，便能展現出與阿里Qwen3-32B模型相近的性能。這一特性使得dots.llm1在保持高效能的同時，也大大降低了運算成本。在中文任務上的表現尤為亮眼，dots.llm1在C-eval評測中取得了92.2分的高分，超越了包括DeepSeek-V3在內的眾多模型。

技術報告顯示，小紅書團隊在數據處理方面做出了多項創(chuàng)新。他們提出了一個可擴展且細粒度的三階段數據處理框架，旨在提升數據的規(guī)模、質量和多樣性。團隊還開發(fā)了Web雜亂清除模型和類別平衡技術，進一步確保了數據的高質量和多樣性。這些努力使得dots.llm1在預訓練階段就能接觸到豐富且高質量的數據，從而提升了模型的性能。

在模型架構方面，dots.llm1采用了僅限解碼器的Transformer架構，其中每一層包含一個注意力層和一個前饋網絡（FFN）。與傳統的密集模型不同，dots.llm1的FFN被專家混合（MoE）層所替代。這種架構使得dots.llm1能夠在保持經濟成本的同時，訓練出功能強大的模型。在注意力層方面，dots.llm1使用了普通的多頭注意力機制，而在MoE層則遵循了DeepSeek和Qwen的做法，用包含共享和獨立專家的MoE層替換了FFN。

為了全面評估dots.llm1的性能，小紅書團隊在中文和英文上進行了預訓練，并評估了它在多個領域基準測試中的表現。結果顯示，dots.llm1在大多數領域中表現出了與Qwen2.5-72B相當的性能。特別是在語言理解任務上，dots.llm1在中文理解基準測試中取得了較高性能，這主要得益于其高效的數據處理管道。在知識任務、代碼和數學領域，dots.llm1也展現出了穩(wěn)健的表現。

dots.llm1在預訓練完成后還經過了監(jiān)督微調階段。小紅書團隊基于開源數據和內部注釋數據收集了大約400k個指令調優(yōu)實例，并對dots.llm1進行了兩個階段的微調。這些努力進一步提升了dots.llm1在特定領域（如數學和編碼）的能力。

通過此次開源，小紅書不僅為人工智能領域貢獻了一個強大的大型語言模型，也展示了其在數據處理和模型架構方面的創(chuàng)新實力。dots.llm1的成功推出，無疑將推動大型語言模型的發(fā)展和應用，為人工智能技術的進步注入新的活力。

分享到：

標簽：中文小紅首推力壓模型