近期,國內科技界傳來一則重磅消息,華為計劃在即將舉行的2025金融AI推理應用落地與發展論壇上,正式揭曉其在AI推理領域的重大技術突破。這一創新成果有望在8月12日與公眾見面。
據知情人士透露,華為此次發布的技術有望減少中國AI推理行業對HBM(高帶寬內存)技術的依賴,進一步推動國內AI大模型推理性能的提升,并填補國內AI推理生態的關鍵一環。HBM技術,作為基于3D堆疊的DRAM解決方案,通過多層DRAM芯片的垂直集成,顯著增強了數據傳輸效率,具備超高帶寬、低延遲、高容量密度以及高能效比等顯著優勢。
在AI推理過程中,海量模型參數(如千億級別的權重)和實時輸入數據的頻繁調用至關重要。HBM的高帶寬和大容量特性使得GPU能夠直接訪問完整模型,避免了傳統DDR內存因帶寬限制導致的算力浪費。特別是對于參數規模超過千億的大型模型,HBM能夠大幅提升響應速度,成為高端AI芯片不可或缺的一部分。目前,HBM在訓練側的應用幾乎達到了全面覆蓋,而在推理側,隨著模型復雜度的增加,其普及速度也在加快。
然而,HBM面臨產能緊張以及美國出口限制的挑戰,這促使國內廠商積極尋求替代方案,如Chiplet封裝技術和低參數模型優化等,以減少對HBM的依賴。