亞馬遜旗下的云服務(wù)巨頭AWS,近期對其旗艦級機(jī)器學(xué)習(xí)平臺SageMaker實(shí)施了一系列重大革新,此舉旨在深度優(yōu)化用戶體驗(yàn),并在激烈的市場競爭中搶占先機(jī)。此次升級的核心亮點(diǎn)包括引入全新的監(jiān)控能力、無縫對接本地開發(fā)環(huán)境,以及對GPU集群的高效管理。
自2024年起,SageMaker平臺已轉(zhuǎn)型為一個集數(shù)據(jù)整合、多種機(jī)器學(xué)習(xí)工具于一體的綜合解決方案中心。AWS此次改版的重心,在于幫助用戶精準(zhǔn)定位模型性能下滑的根源,并賦予他們更廣泛的權(quán)限來精細(xì)調(diào)配計(jì)算資源。
在接受《VentureBeat》專訪時(shí),AWS SageMaker的掌舵人Ankur Mehrotra透露,許多創(chuàng)新功能的靈感均源自用戶的直接反饋。他指出,生成AI模型的客戶經(jīng)常遇到的一個難題是,當(dāng)模型運(yùn)行出現(xiàn)問題時(shí),難以迅速鎖定故障的具體層級。
為破解這一難題,SageMaker引入了HyperPod監(jiān)控功能,使工程師得以全面審視計(jì)算層、網(wǎng)絡(luò)層等多個維度的狀態(tài)。一旦模型性能出現(xiàn)波動,系統(tǒng)會立即觸發(fā)警報(bào),并在儀表盤上實(shí)時(shí)展示相關(guān)性能指標(biāo)。
除了監(jiān)控功能的增強(qiáng),SageMaker還新增了本地集成開發(fā)環(huán)境(IDE)的接入選項(xiàng),這一改動意味著工程師可以在本地編寫AI項(xiàng)目后,無縫遷移至平臺進(jìn)行部署。Mehrotra強(qiáng)調(diào),以往本地編碼的模型只能在本地運(yùn)行,這大大限制了開發(fā)者的擴(kuò)展能力。如今,通過AWS的安全遠(yuǎn)程執(zhí)行功能,用戶無論是在本地還是在托管IDE上開發(fā),都能輕松與SageMaker連接,靈活應(yīng)對多樣化的工作需求。
AWS在2023年12月推出的SageMaker HyperPod,旨在為用戶提供訓(xùn)練模型服務(wù)器集群的高效管理工具。HyperPod能夠根據(jù)實(shí)際需求模式智能調(diào)度GPU資源,助力用戶實(shí)現(xiàn)資源與成本的完美平衡。AWS表示,許多客戶都希望能在推理任務(wù)中也享受到類似的服務(wù)。考慮到推理任務(wù)往往集中在白天,而訓(xùn)練任務(wù)則多安排在非高峰時(shí)段,這一新功能無疑為開發(fā)者提供了更高的靈活性。
盡管在基礎(chǔ)模型領(lǐng)域,亞馬遜或許不如谷歌和微軟那般耀眼,但AWS始終致力于為企業(yè)構(gòu)建AI模型、應(yīng)用或代理提供堅(jiān)實(shí)可靠的基礎(chǔ)設(shè)施支持。除了SageMaker之外,AWS還推出了Bedrock平臺,專門服務(wù)于應(yīng)用和代理的構(gòu)建需求。隨著SageMaker的持續(xù)升級,AWS在企業(yè)AI領(lǐng)域的競爭力正日益凸顯。