正陽恒卓高凱：打造高效可靠智算中心，AI Infra建設需系統性突破-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：52011
待審：79
小程序：12
文章：1184964
會員：801

正陽恒卓高凱：打造高效可靠智算中心，AI Infra建設需系統性突破

發布時間：2025-01-06 17:03:20 作者：網友整理

在近期舉辦的一場聚焦于人工智能產業應用的盛會上，北京正陽恒卓科技有限公司的首席科學家高凱，針對當前AI基礎設施建設中的關鍵挑戰，分享了一系列深刻的見解與公司的技術創新成果。

高凱強調，盡管客戶普遍期望AI任務能夠充分利用智算中心的硬件資源，實現性能的大幅提升，但在實際操作中，即便是通過擴大集群規?；蛏売布?，分布式AI任務的性能提升也并非總能如愿以償地實現線性增長。他指出，這主要是由于大規模分布式AI任務對資源的需求極為龐大，容易導致資源碎片化，進而閑置，并對調度系統的性能提出了更高要求。并行方法和通信順序也是影響分布式AI任務效率的關鍵因素。

針對這些挑戰，高凱提出了解決方案：大規模分布式AI基礎設施需具備高效的系統容錯能力，并采用豐富的并行策略。他提到，目前國內外的一些領先企業已經支持三維并行策略，甚至正在探索五維并行策略，以進一步提升AI任務的執行效率。

在智算中心的建設過程中，高凱還指出，客戶往往期望AI大模型能夠穩定運行，但現實情況卻并非如此。AI系統中的各個組件都可能出現故障，導致AI任務中斷或失敗。他分析道，AI任務依賴于專用硬件，與傳統計算集群在能源、產熱、工作條件等方面存在差異，主流AI并行框架采用同步方式運行，存在單點故障問題，傳統云平臺的容錯能力并不適用于AI系統，導致故障原因多樣且難以定位。

高凱強調，大規模分布式AI系統的容錯能力是AI系統穩定運行的基礎，已成為全球AI大廠競相關注的焦點。結合正陽恒卓在為國家超算中心、大模型公司等企業建設大規模智算中心方面的豐富經驗，他認為，建設高效可靠的AI基礎設施是一個系統工程，需要從硬件到軟件進行全面系統性開發，同時，可靠性和高效性的技術應被封裝，以便盡可能對用戶透明。

高凱將AI基礎設施的構建分為四個層級：智算中心建設、基礎服務運營、AI開發部署框架以及AI應用開發。他指出，與大型廠商能夠實現從底層硬件到上層AI應用的全棧自主研發不同，大部分小型企業往往缺乏這樣的經濟能力和人才儲備。因此，為了推動人工智能產業應用的發展，提供高效可靠的AI基礎設施已成為智算中心未來必須具備的基本能力和發展趨勢。

據高凱介紹，為了讓更多的人工智能產業應用企業受益，正陽恒卓正致力于領導并構建一個開放的、面向高效可靠智算中心的AI基礎設施基礎框架。這個開放基礎框架中的功能模塊基于開放標準進行設計，旨在吸引更多相關行業的企業和開發者共同組建技術生態，使用戶的模型開發、部署、應用能夠在不同的算力環境中實現無縫遷移。同時，AI基礎設施企業可以通過技術創新提供高效性和可靠性的增值服務。

作為一家成立于2015年4月的公司，正陽恒卓已服務超300家企業客戶，是英偉達認證的精英級合作伙伴，并連續兩年成為NVIDIA Networking NPN業績的佼佼者。

分享到：

標簽：正陽高效可靠突破打造