近日,華為技術(shù)有限公司攜手北京大學(xué)高性能計算校級公共平臺,正式揭曉了DeepSeek全棧開源推理方案,這一發(fā)布標(biāo)志著雙方在人工智能推理領(lǐng)域的深度合作邁出了重要一步。
DeepSeek方案依托北京大學(xué)自主研發(fā)的SCOW算力平臺系統(tǒng)與鶴思調(diào)度系統(tǒng),并巧妙融合了DeepSeek、openEuler、MindSpore及vLLM/RAY等多個開源社區(qū)組件。該方案專為華為昇騰系列硬件設(shè)計,旨在實現(xiàn)高效推理,并支持大規(guī)模算力集群的訓(xùn)推一體化部署。尤為所有開發(fā)者均可自由獲取源碼,并根據(jù)實際需求進(jìn)行二次開發(fā),其性能表現(xiàn)已接近市面上的閉源方案。
相較于傳統(tǒng)的閉源方案,DeepSeek在硬件配置上展現(xiàn)出了顯著優(yōu)勢。以DeepSeek-R1-w8a8配置為例,在2臺Atlas 800I A2服務(wù)器的支持下,輸入長度為4096時,輸出長度可達(dá)1024,系統(tǒng)吞吐量高達(dá)1198,而在用戶并發(fā)測試中,同樣達(dá)到了128的并發(fā)處理能力。
目前,DeepSeek方案已成功部署于北京大學(xué)未名卓越一號集群。該集群由北京大學(xué)計算中心負(fù)責(zé)運維,是北大鯤鵬昇騰科教創(chuàng)新卓越中心的重要算力支撐。作為國內(nèi)首個基于高校自研基礎(chǔ)軟件的國產(chǎn)智算平臺,未名卓越一號集群自2024年11月18日上線以來,已集成了20臺昇騰AI服務(wù)器與10臺鯤鵬通用服務(wù)器,其AI算力規(guī)模達(dá)到了30.64PFlops(半精度),為科研與教學(xué)提供了強大的算力保障。
DeepSeek推理方案的核心優(yōu)勢在于其全棧開源組件的構(gòu)建與深度優(yōu)化。在openEuler開源操作系統(tǒng)層面,方案進(jìn)行了全面優(yōu)化,通過異構(gòu)調(diào)度負(fù)載感知MoE冷熱專家,實現(xiàn)了更精細(xì)的任務(wù)調(diào)度。同時,方案還采用了異構(gòu)融合技術(shù),有效管理內(nèi)存,大幅減少了系統(tǒng)內(nèi)存碎片。畢昇編譯器的進(jìn)一步優(yōu)化,更是顯著減少了算子下發(fā)耗時,從而提升了推理的整體性能。
上圖展示了算力集群全棧開源推理方案的架構(gòu)圖,從中不難看出,DeepSeek方案在設(shè)計與實施上均體現(xiàn)出了高度的專業(yè)性與創(chuàng)新性。此次合作不僅展示了華為與北京大學(xué)在人工智能領(lǐng)域的深厚積累,更為國內(nèi)AI推理技術(shù)的發(fā)展注入了新的活力。