近日,北京趨動科技有限公司(以下簡稱“趨動科技”)與深信服正式推出聯(lián)合解決方案。聯(lián)合解決方案將深信服EDS的高性能存儲與趨動科技OrionX AI算力資源池化軟件、以及Gemini AI訓練平臺有機結(jié)合,整合存力與算力資源的同時,幫助用戶建好AI平臺、管好AI資源、用好AI服務(wù)。
具體來說,聯(lián)合解決方案的推出將為AI領(lǐng)域用戶的基礎(chǔ)設(shè)施建設(shè)帶來以下改變。
1、高性能聯(lián)合方案就緒,打造更高效的訓練平臺
隨著AI大模型建設(shè)進度的加快,用戶對AI模型訓練效率的要求也越來越高。但由于GPU算力資源不足和底層存儲小文件讀寫性能不足等問題,訓練平臺內(nèi)大量的訓練任務(wù)不得不排隊等待。算力和存力上的能力缺失,拖慢了整個AI訓練平臺的訓練效率。
針對此種情況,聯(lián)合解決方案自上而下做了全面優(yōu)化。針對上層訓練平臺的效率問題,趨動科技OrionX AI算力資源池化軟件通過打造算力資源池,幫助用戶根據(jù)任務(wù)情況靈活分配GPU資源,實現(xiàn)資源的切分、聚合、遠程調(diào)用、超分、任務(wù)排隊、動態(tài)掛載和釋放、以及國產(chǎn)芯片異構(gòu)池化等能力,充分滿足各項訓練任務(wù)的算力開銷,加速任務(wù)開展。同時,Gemini AI訓練平臺提供的調(diào)度能力優(yōu)化了訓練平臺的管理機制,統(tǒng)一調(diào)度下,AI模型的訓練更加高效。
針對底層存儲的性能問題,通過EDS自研的啟發(fā)式預讀機制和多活元數(shù)據(jù)服務(wù),可有效解決小文件性能難題,百億數(shù)據(jù)集規(guī)模下也可提供高速的讀寫能力,從而減少GPU的等待時間,提高短期循環(huán)訓練的吞吐能力和訓練效率。
2、容量與性能同步擴展,打造高性價比的存儲方案
在日常的AI數(shù)據(jù)集訓練過程中,為了讓模型更加精準,常常需要用海量的圖像、文本等數(shù)據(jù)對AI模型進行訓練。飛速增長的數(shù)據(jù)給底層存儲的容量和性能帶來了巨大的壓力,傳統(tǒng)存儲高成本、低效率的擴容模式愈發(fā)難以滿足性能和容量的需求。
憑借矩陣式存儲算法等全自研技術(shù),EDS在存儲圖文、視頻等小文件的過程中,可有效解決小文件寫放大導致的空間浪費問題,最大化利用存儲空間,三節(jié)點組成的集群即可滿足一個中等規(guī)模的AI訓練團隊的存儲需求。在性能的擴容方面,也得益于軟件定義存儲的架構(gòu)優(yōu)勢,EDS在進行擴容時可實現(xiàn)容量與性能地同步擴展,靈活應對AI業(yè)務(wù)快速增長的性能需求。
3、統(tǒng)一管理,深度挖掘數(shù)據(jù)價值
在方案發(fā)布前,EDS已經(jīng)通過NFS CSI、S3等協(xié)議與趨動科技的Gemini AI訓練平臺實現(xiàn)了無縫對接。深度適配下,Kubernetes容器編排平臺可更快完成存儲資源的動態(tài)分配,用戶在部署時可直接跳過針對方案的可行性研究環(huán)節(jié),快速上線AI訓練任務(wù)。同時,EDS還支持多協(xié)議間的數(shù)據(jù)互通,多類型客戶端可共用一套存儲,各階段成果數(shù)據(jù)無須跨存儲拷貝即可實現(xiàn)高效流轉(zhuǎn),確保用戶在任何訓練階段都可有效調(diào)用數(shù)據(jù)成果,更便捷地挖掘數(shù)據(jù)價值。
未來,雙方還將在技術(shù)領(lǐng)域加強合作,以更高存儲性能的聯(lián)合方案助力用戶加速完成AI訓練平臺的升級建設(shè),幫助更多用戶在AI訓練的道路上走得更快更穩(wěn)。
關(guān)于趨動科技:趨動科技致力于為用戶提供全球領(lǐng)先的數(shù)據(jù)中心級AI算力虛擬化和資源池化解決方案,目前已有多家人工智能、互聯(lián)網(wǎng)、運營商、金融、汽車及自動駕駛、教育等行業(yè)的頭部企業(yè)和用戶使用OrionX AI算力資源池化解決方案。