華為在AI領(lǐng)域邁出了重要一步,近日宣布將CANN(神經(jīng)網(wǎng)絡(luò)計(jì)算架構(gòu))全面開源開放。這一舉動(dòng)緊隨其昨日開源三款盤古大模型的步伐,這些模型的參數(shù)規(guī)模分別為1B、7B和驚人的718B。
CANN,全稱為Compute Architecture for Neural Networks,是華為專為AI場(chǎng)景設(shè)計(jì)的異構(gòu)計(jì)算架構(gòu)。其旨在提升華為昇騰AI芯片在處理復(fù)雜AI任務(wù)時(shí)的效率。此次全面開源,意味著開發(fā)者將能夠更深入地利用這一架構(gòu),進(jìn)行自定義開發(fā),進(jìn)一步豐富華為AI生態(tài)。
值得注意的是,華為早在2024年就已宣布對(duì)昇騰CANN進(jìn)行深度開放,而此次的全面開源開放可以看作是這一策略的深化和補(bǔ)充。華為輪值董事長(zhǎng)徐直軍表示,Mind系列應(yīng)用使能套件和工具鏈也將全面開源,為用戶提供更為靈活的開發(fā)支持。
此次開源的三款盤古模型分別為openPangu-Embedded-1B-model、openPangu-Ultra-MoE-718B-model和openPangu-Embedded-7B-model。這些模型均基于昇騰NPU進(jìn)行訓(xùn)練,并在Gitcode平臺(tái)上提供了下載鏈接。
其中,openPangu-Embedded-1B是一個(gè)專為端側(cè)設(shè)備運(yùn)行設(shè)計(jì)的高效語(yǔ)言模型,它采用了26層Dense架構(gòu),并訓(xùn)練了約10T tokens。據(jù)稱,該模型在保持端側(cè)運(yùn)行要求的同時(shí),能夠達(dá)到較高的精度。而openPangu-Ultra-MoE-718B則是一個(gè)混合專家語(yǔ)言模型,其總參數(shù)量高達(dá)718B,激活參數(shù)量為39B,訓(xùn)練了約19T tokens,并具備快慢思考融合能力。
openPangu-Ultra-MoE-718B在架構(gòu)上采用了多種創(chuàng)新設(shè)計(jì),如Multi-head Latent Attention(MLA)、Multi-Token Prediction(MTP)以及大稀疏比等,以提升模型的性能和訓(xùn)練效率。該模型還通過(guò)Depth-Scaled Sandwich-Norm和TinyInit等技術(shù)手段,提升了訓(xùn)練的穩(wěn)定性。
華為在AI領(lǐng)域的這一系列舉措,無(wú)疑將進(jìn)一步推動(dòng)其AI軟硬件生態(tài)的發(fā)展。昇騰CANN作為連接華為AI硬件和上層應(yīng)用的關(guān)鍵技術(shù),其開源程度的提高將有助于吸引更多開發(fā)者加入,共同推動(dòng)華為AI生態(tài)的成長(zhǎng)。同時(shí),盤古大模型的進(jìn)一步開源也將與CANN形成協(xié)同效應(yīng),共同提升華為在AI領(lǐng)域的競(jìng)爭(zhēng)力。
在當(dāng)前國(guó)內(nèi)AI賽道火熱的背景下,華為昇騰AI芯片+盤古大模型的技術(shù)路徑備受矚目。隨著自主可控成為行業(yè)關(guān)注的焦點(diǎn)之一,華為的這一組合有望成為推動(dòng)國(guó)內(nèi)AI產(chǎn)業(yè)發(fā)展的重要力量。