【ITBEAR】9月21日消息,在近日盛大開幕的2024云棲大會上,阿里云向外界展示了其飛天企業(yè)版的最新智算升級成果。此次升級將智能計算能力深度整合至專有云平臺內(nèi),實(shí)現(xiàn)了對通用算力、超級計算以及智能計算的一網(wǎng)打盡式調(diào)度管理,從而有效響應(yīng)了政府和企業(yè)客戶在“云+AI”協(xié)同發(fā)展方面的迫切需求,為人工智能在政企市場的廣泛落地提供了堅實(shí)的技術(shù)支撐。
飛天企業(yè)版,作為阿里云專為政企客戶量身打造的云平臺解決方案,自2014年問世以來,已成功助力逾千家大型政企客戶實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,其深耕領(lǐng)域遍布金融、政務(wù)、能源、電力及交通等多個關(guān)鍵行業(yè)。該平臺與阿里云公共云共享同一套技術(shù)架構(gòu),確保了客戶能夠享受到一致且卓越的服務(wù)體驗(yàn)。
據(jù)ITBEAR了解,隨著大型AI模型的迅猛發(fā)展,政企市場對于算力的需求正經(jīng)歷著前所未有的變革。在此背景下,如何對不同架構(gòu)的GPU芯片進(jìn)行統(tǒng)一管理和高效調(diào)度,已成為業(yè)界普遍面臨的挑戰(zhàn)。同時,在并行計算性能上,現(xiàn)有GPU服務(wù)器和集群的實(shí)際運(yùn)算效率與理論值之間仍存在顯著差距,亟待提升。
阿里云飛天企業(yè)版針對這些痛點(diǎn)進(jìn)行了全面的智算升級。在異構(gòu)算力池化層面,通過精細(xì)化的GPU虛擬化和容器調(diào)度技術(shù),該平臺成功將算力切分粒度控制在了1%的驚人水平,從而實(shí)現(xiàn)了資源利用率的翻倍提升。此外,借助訓(xùn)推一體化的資源調(diào)度策略,飛天企業(yè)版有效減少了算力資源的碎片化問題,降幅高達(dá)30%。
在推理場景的性能優(yōu)化上,飛天企業(yè)版同樣取得了顯著進(jìn)展。通過改進(jìn)GPU推理調(diào)度算法,該平臺能夠在單機(jī)多卡并行訓(xùn)練中智能選取最佳通信鏈路,從而將通信帶寬提升至上限的兩倍。同時,基于拓?fù)涓兄馁Y源調(diào)度技術(shù)使得模型吞吐量提升了23%。而針對GPU的深度調(diào)優(yōu)工作以及對顯存、算子和編譯技術(shù)的專項(xiàng)優(yōu)化,則進(jìn)一步將GPU性能相較于社區(qū)版提升了10%。
除了上述技術(shù)突破外,飛天企業(yè)版還在系統(tǒng)穩(wěn)定性方面展現(xiàn)出了強(qiáng)大的實(shí)力。該平臺提供了一體化的監(jiān)控和分析診斷功能,能夠針對故障節(jié)點(diǎn)及受影響的作業(yè)路徑進(jìn)行分鐘級的快速定位和診斷,整體故障監(jiān)控覆蓋率高達(dá)80%。
值得一提的是,智能升級后的飛天企業(yè)版還引入了AI Studio平臺和運(yùn)維大模型兩大新功能板塊。AI Studio在全面兼容國產(chǎn)硬件的基礎(chǔ)上,為用戶提供了從模型訓(xùn)練、微調(diào)到測評的一站式服務(wù),并內(nèi)置了豐富的行業(yè)應(yīng)用插件,以簡化大模型的構(gòu)建和發(fā)布流程。而運(yùn)維大模型則基于通義千問進(jìn)行構(gòu)建,并結(jié)合了海量的運(yùn)維專業(yè)知識和數(shù)據(jù)訓(xùn)練而成,旨在將日常運(yùn)維效率提升50%。
阿里云智能集團(tuán)副總裁、專有云總經(jīng)理劉國華在大會上表示:“飛天企業(yè)版在過去十年的演進(jìn)中,始終離不開廣大客戶的信任與支持。面對AI時代的新挑戰(zhàn)和新機(jī)遇,我們將繼續(xù)堅守對政企市場的承諾,致力于為他們打造AI時代最為開放的云平臺。”
#阿里云# #飛天企業(yè)版# #智算升級# #云棲大會# #AI時代#