近期,華為即將在金融AI推理應用落地與發展論壇上,于8月12日公布一項在AI推理領域的重大技術創新。這一消息由國內媒體率先披露。
據悉,華為的新技術有望減少對HBM(高帶寬內存)技術的依賴,這對提升國內AI大模型的推理性能以及完善AI推理生態具有重大意義。HBM作為一種基于3D堆疊技術的DRAM解決方案,因其超高帶寬、低延遲、高容量密度及高效能比,在AI推理中扮演著關鍵角色。
AI推理過程中,需要頻繁調用大量的模型參數和實時數據,特別是千億級權重的模型。HBM憑借其高帶寬和大容量,使GPU能夠直接訪問完整模型,避免了傳統DDR內存因帶寬限制導致的算力浪費。對于參數規模龐大的AI模型,HBM能顯著提升運算響應速度。
目前,HBM已成為高端AI芯片不可或缺的一部分,尤其在訓練領域的應用幾乎達到全覆蓋,而隨著AI模型日益復雜,其在推理領域的應用也在迅速普及。然而,HBM面臨產能緊張以及美國出口限制的挑戰,這促使國內廠商積極尋求替代方案,如Chiplet封裝技術和低參數模型優化。