在全球人工智能技術(shù)的迅猛發(fā)展中,模型推理的高效性成為了業(yè)界關(guān)注的熱點(diǎn)。近日,華為數(shù)學(xué)團(tuán)隊(duì)在 DeepSeek 開源活動上,正式推出了名為 FlashComm 的創(chuàng)新技術(shù),該技術(shù)通過三大革新手段,實(shí)現(xiàn)了對大模型推理性能的顯著提升,速度最高可加快80%。
FlashComm 技術(shù)的首要突破在于對 AllReduce 通信操作的優(yōu)化。傳統(tǒng)的 AllReduce 方法在處理數(shù)據(jù)時如同笨重的貨車,缺乏靈活性。華為團(tuán)隊(duì)則通過巧妙的數(shù)據(jù)分割,先執(zhí)行 ReduceScatter 操作,再進(jìn)行 AllGather,這種調(diào)整不僅減少了35%的通信量,還使關(guān)鍵計(jì)算量降低至原來的八分之一,從而使推理性能提升了22%至26%。
華為團(tuán)隊(duì)在推理過程中發(fā)現(xiàn),通過調(diào)整矩陣乘法的并行維度,可以進(jìn)一步減輕通信負(fù)擔(dān)。在確保計(jì)算精度不受影響的前提下,他們將三維張量簡化為二維矩陣,并結(jié)合 INT8 量化技術(shù),使得數(shù)據(jù)傳輸量減少了86%,整體推理速度因此提高了33%。這一策略仿佛是在數(shù)據(jù)傳輸?shù)摹案咚俟贰鄙?,采用了更高效的“運(yùn)輸工具”。
華為團(tuán)隊(duì)還引入了多流并行技術(shù),打破了傳統(tǒng)串行計(jì)算的瓶頸。在 MoE 模型的推理過程中,他們將復(fù)雜的計(jì)算流程拆解并重新組織,利用昇騰硬件的多流引擎,實(shí)現(xiàn)了三條計(jì)算流的精確并行。這意味著,當(dāng)一組數(shù)據(jù)正在進(jìn)行專家計(jì)算時,另一組數(shù)據(jù)已經(jīng)進(jìn)入門控決策階段,從而極大地提高了計(jì)算效率。
FlashComm 技術(shù)的發(fā)布,標(biāo)志著華為在大模型推理領(lǐng)域取得了重大技術(shù)進(jìn)展。這一創(chuàng)新不僅將加快模型的推理速度,還將為人工智能應(yīng)用的發(fā)展注入新的動力,為科研和工業(yè)領(lǐng)域的 AI 應(yīng)用開辟更加廣闊的前景。