【ITBEAR科技資訊】6月4日消息,昆侖萬維近日宣布,他們已成功開源了一款名為Skywork-MoE的2千億參數(shù)稀疏大模型。這款模型憑借其強勁的性能和更低的推理成本,立即引起了業(yè)界的廣泛關(guān)注。Skywork-MoE的模型權(quán)重和技術(shù)報告均被完全開源,且可免費商用。
Skywork-MoE是基于昆侖萬維先前開源的Skywork-13B模型中間checkpoint進行擴展而來的。它是首個將MoE Upcycling技術(shù)全面應(yīng)用并實際落地的開源千億MoE大模型,同時也成為了首個能在單臺4090服務(wù)器上實現(xiàn)推理的開源千億MoE大模型。
據(jù)ITBEAR科技資訊了解,Skywork-MoE在相同的激活參數(shù)量20B(即推理計算量)下,其性能在行業(yè)中處于領(lǐng)先地位,甚至接近于70B的Dense模型。這一突出表現(xiàn)使得Skywork-MoE的推理成本降低了近三倍。與此同時,與DeepSeekV2相比,Skywork-MoE的總參數(shù)規(guī)模還要小1/3,但它卻能用更小的參數(shù)規(guī)模實現(xiàn)相近的性能。
昆侖萬維對此次開源的Skywork-MoE模型寄予厚望。他們希望,通過開源模型、技術(shù)報告和相關(guān)的實驗結(jié)果,能為開源社區(qū)貢獻更多的MoE訓(xùn)練經(jīng)驗和專業(yè)知識,涵蓋模型結(jié)構(gòu)、超參數(shù)選擇、訓(xùn)練技巧以及訓(xùn)練推理加速等各個方面。他們的目標(biāo)是探索如何用更低的訓(xùn)練推理成本來訓(xùn)練出更大、更強的模型,從而為通往AGI(通用人工智能)的道路貢獻一份力量。