在近期舉辦的一場聚焦于人工智能產業應用的盛會上,北京正陽恒卓科技有限公司的首席科學家高凱,針對當前AI基礎設施建設中的關鍵挑戰,分享了一系列深刻的見解與公司的技術創新成果。
高凱強調,盡管客戶普遍期望AI任務能夠充分利用智算中心的硬件資源,實現性能的大幅提升,但在實際操作中,即便是通過擴大集群規?;蛏売布?,分布式AI任務的性能提升也并非總能如愿以償地實現線性增長。他指出,這主要是由于大規模分布式AI任務對資源的需求極為龐大,容易導致資源碎片化,進而閑置,并對調度系統的性能提出了更高要求。并行方法和通信順序也是影響分布式AI任務效率的關鍵因素。
針對這些挑戰,高凱提出了解決方案:大規模分布式AI基礎設施需具備高效的系統容錯能力,并采用豐富的并行策略。他提到,目前國內外的一些領先企業已經支持三維并行策略,甚至正在探索五維并行策略,以進一步提升AI任務的執行效率。
在智算中心的建設過程中,高凱還指出,客戶往往期望AI大模型能夠穩定運行,但現實情況卻并非如此。AI系統中的各個組件都可能出現故障,導致AI任務中斷或失敗。他分析道,AI任務依賴于專用硬件,與傳統計算集群在能源、產熱、工作條件等方面存在差異,主流AI并行框架采用同步方式運行,存在單點故障問題,傳統云平臺的容錯能力并不適用于AI系統,導致故障原因多樣且難以定位。
高凱強調,大規模分布式AI系統的容錯能力是AI系統穩定運行的基礎,已成為全球AI大廠競相關注的焦點。結合正陽恒卓在為國家超算中心、大模型公司等企業建設大規模智算中心方面的豐富經驗,他認為,建設高效可靠的AI基礎設施是一個系統工程,需要從硬件到軟件進行全面系統性開發,同時,可靠性和高效性的技術應被封裝,以便盡可能對用戶透明。
高凱將AI基礎設施的構建分為四個層級:智算中心建設、基礎服務運營、AI開發部署框架以及AI應用開發。他指出,與大型廠商能夠實現從底層硬件到上層AI應用的全棧自主研發不同,大部分小型企業往往缺乏這樣的經濟能力和人才儲備。因此,為了推動人工智能產業應用的發展,提供高效可靠的AI基礎設施已成為智算中心未來必須具備的基本能力和發展趨勢。
據高凱介紹,為了讓更多的人工智能產業應用企業受益,正陽恒卓正致力于領導并構建一個開放的、面向高效可靠智算中心的AI基礎設施基礎框架。這個開放基礎框架中的功能模塊基于開放標準進行設計,旨在吸引更多相關行業的企業和開發者共同組建技術生態,使用戶的模型開發、部署、應用能夠在不同的算力環境中實現無縫遷移。同時,AI基礎設施企業可以通過技術創新提供高效性和可靠性的增值服務。
作為一家成立于2015年4月的公司,正陽恒卓已服務超300家企業客戶,是英偉達認證的精英級合作伙伴,并連續兩年成為NVIDIA Networking NPN業績的佼佼者。