在北京舉行的鯤鵬昇騰開發者大會2025期間,昇騰AI開發者峰會順利召開。華為昇騰計算業務總裁張迪煊發表了題為《攜手昇騰,共創輝煌》的演講,詳細介紹了昇騰在計算領域的最新進展和成果。
張迪煊表示,昇騰團隊在短短六年時間里,從華為內部的一個百人團隊迅速成長為擁有百萬開發者的龐大生態。這一成就得益于廣大客戶、合作伙伴及開發者的支持與陪伴。昇騰通過不斷演進的產品、深度開放的技術以及持續提升的易用性,推動了整個產業的發展。
他指出,目前已有超過5萬名開發者能夠深度挖掘昇騰的性能潛力,實現突破性創新,并為開源社區做出貢獻。同時,昇騰還與高校合作,培養了40多萬名學生,他們正在逐步進入社會和企業,成為推動AI發展的重要力量。
張迪煊強調,昇騰的CANN(Compute Architecture for Neural Networks)平臺始終堅持分層開放策略,使能每一位開發者。CANN的開源組件包括Ascend C、算子加速庫、集合通信庫等,并在Gitee上提供了豐富的參考樣例。昇騰還深度開放了Runtime運行時和畢昇編譯器等接口,滿足開發者對極致性能的追求。
在演講中,張迪煊還介紹了昇騰的畢昇編譯器,它提供了端到端的昇騰算子編譯和調優能力。畢昇編譯器通過混合編程編譯能力、親和昇騰微架構技術以及動態二進制插樁技術等手段,大幅提升了算子的性能和調試效率。
張迪煊還宣布了昇騰AI的CATLASS算子模板庫。CATLASS按照計算粒度自上而下分層設計,包括Device層、Kernel層、Block層和Tile層,開發者可以通過調整接口參數自定義優化算子切分策略,實現算子性能最優。
在硬件方面,昇騰打造了業界最大規模的昇騰384超節點,由12個計算柜和4個總線柜組成,最大算力可達300 PFLOPS,48TB高速內存。昇騰384超節點通過高速總線互聯替代傳統以太網,通信帶寬提升了15倍,單跳通信時延降低了10倍,真正實現了集群像一臺計算機一樣工作。
在AI訓練方面,昇騰推出了MindSpeed RL強化學習開發套件,訓練精度達到業界商用水平,性能持續引領。MindSpeed RL通過大規模訓推共卡、權重Reshard和調度優化等技術,支持千億規模大模型的強化學習訓練。
在推理方面,昇騰實現了大規模專家并行,通過降低單卡內存權重占用和釋放更多內存用于用戶并發所需的KV Cache,實現了更大的單卡吞吐能力和更低的系統時延。昇騰還推出了MindIE Motor推理服務加速庫,提供AutoPD分離、精細異步調度和高階RAS等特性,進一步提升了推理性能。
張迪煊還介紹了昇騰的多模態理解SDK和推理微服務MIS,旨在簡化應用部署流程,讓開發者更專注于應用本身的開發和創新。昇騰社區也進行了全面升級,提供了豐富、友好、活躍的開發者創新陣地。
最后,張迪煊表示,昇騰將持續開源開放,與開發者共建中國最具活力的開源項目。同時,昇騰還將關注開發者成長和伙伴生態構建,提供豐富的成長體系和激勵措施,賦能伙伴打造更有競爭力的產品和解決方案。
張迪煊的演講贏得了現場開發者的熱烈掌聲。大家紛紛表示,昇騰在計算領域的不斷創新和開放態度,為開發者提供了強大的技術支持和廣闊的發展平臺。