在近日舉行的華為云生態(tài)大會(huì)上,硅基流動(dòng)公司的創(chuàng)始人袁進(jìn)輝帶來了一項(xiàng)重大宣布:硅基流動(dòng)攜手華為云,基于CloudMatrix 384超節(jié)點(diǎn)昇騰云服務(wù)以及高性能推理框架SiliconLLM,正式推出了DeepSeek-R1的最新版本。這一版本采用了大規(guī)模專家并行的最佳實(shí)踐,為用戶帶來了前所未有的性能體驗(yàn)。
據(jù)悉,DeepSeek-R1在確保每位用戶能夠達(dá)到20 TPS(每秒事務(wù)數(shù))的基礎(chǔ)上,單卡Decode的吞吐量更是突破了1920 Tokens/s,這一表現(xiàn)與H100的部署性能不相上下。更重要的是,經(jīng)過廣泛的主流測試集驗(yàn)證及大規(guī)模線上盲測,使用昇騰算力部署的DeepSeek-R1模型精度,與DeepSeek官方提供的版本完全一致。
CloudMatrix超節(jié)點(diǎn)集群,憑借其基于新型高速總線架構(gòu)的設(shè)計(jì),在總算力、互聯(lián)帶寬以及內(nèi)存帶寬方面均處于業(yè)界領(lǐng)先地位。這一創(chuàng)新架構(gòu),為DeepSeek-R1的高效運(yùn)行提供了堅(jiān)實(shí)的基礎(chǔ)。
硅基流動(dòng)此前已在SiliconCloud大模型云服務(wù)平臺(tái)上,推出了基于昇騰云的穩(wěn)定生產(chǎn)級(jí)DeepSeek-V3與R1推理服務(wù),并支持模型的私有化集群部署。此次與華為云的深度合作,進(jìn)一步推動(dòng)了基于國產(chǎn)算力的DeepSeek-R1推理服務(wù)的持續(xù)優(yōu)化與升級(jí)。
DeepSeek在全球范圍內(nèi)掀起了一場風(fēng)暴,其高效、低成本的MoE(Mixture of Experts,專家混合)架構(gòu)為解決大模型推理的挑戰(zhàn)提供了新的思路。然而,要想成功部署DeepSeek,并非易事,尤其是缺乏強(qiáng)大的AI Infra技術(shù)能力的情況下。DeepSeek采用了大規(guī)模專家并行(Expert Parallelism,大EP并行)的MoE模型架構(gòu),如果采用單機(jī)部署方案,其性能將遠(yuǎn)遜于DeepSeek官方公布的部署方案,且成本差距可能高達(dá)數(shù)倍。
面對(duì)這些挑戰(zhàn),硅基流動(dòng)與華為云共同攻克了技術(shù)難關(guān)。在CloudMatrix 384超節(jié)點(diǎn)昇騰云服務(wù)上部署DeepSeek-R1時(shí),他們采用了大規(guī)模專家并行方案,通過多專家負(fù)載均衡和極致的通信優(yōu)化,實(shí)現(xiàn)了高吞吐和更高性能,從而顯著提升了用戶體驗(yàn)。同時(shí),他們還利用了昇騰高性能算子庫以及硅基流動(dòng)推理加速框架SiliconLLM在模型、機(jī)制、算子上的協(xié)同優(yōu)化,使得在國產(chǎn)算力上,DeepSeek-R1的推理效率與資源利用率得到了顯著提升,且未損失模型精度。
硅基流動(dòng)與華為云的這次合作,不僅為用戶提供了堅(jiān)實(shí)的全國產(chǎn)軟硬件體系部署方案,使DeepSeek推理服務(wù)更加經(jīng)濟(jì)高效,同時(shí)也展示了AI生態(tài)合作的強(qiáng)大力量。這一合作成果,將推動(dòng)AI技術(shù)在更多場景中的落地和應(yīng)用,為用戶帶來更加優(yōu)質(zhì)的AI服務(wù)體驗(yàn)。