亞馬遜云科技近期宣布了一項(xiàng)重大進(jìn)展,旨在推動(dòng)生成式AI技術(shù),特別是推理模型和Agentic AI系統(tǒng)的發(fā)展。該公司正式推出了由NVIDIA Grace Blackwell Superchips加速的Amazon EC2 P6e-GB200 UltraServer,這款服務(wù)器專為處理大型復(fù)雜AI模型的訓(xùn)練和部署而打造。
早些時(shí)候,亞馬遜云科技已經(jīng)引入了基于NVIDIA Blackwell GPU的Amazon EC2 P6-B200實(shí)例,該實(shí)例支持多樣化的AI和高性能計(jì)算任務(wù),為用戶提供了更多的選擇。
Amazon EC2 P6e-GB200 UltraServer代表了亞馬遜云科技在GPU產(chǎn)品方面的巔峰之作。它最多可配備72個(gè)NVIDIA Blackwell GPU,這些GPU通過第五代NVIDIA NVLink互連技術(shù)協(xié)同工作,形成一個(gè)強(qiáng)大的計(jì)算單元。其計(jì)算能力高達(dá)360 petaflops(FP8),并配備了13.4TB的高帶寬顯存(HBM3e),與P5en實(shí)例相比,計(jì)算性能提升了20多倍,內(nèi)存容量也增加了11倍。UltraServer還支持高達(dá)28.8 Tbps的第四代Elastic Fabric Adapter(EFAv4)網(wǎng)絡(luò)帶寬,進(jìn)一步提升了數(shù)據(jù)傳輸效率。
針對(duì)廣泛的AI應(yīng)用場(chǎng)景,Amazon EC2 P6-B200實(shí)例提供了靈活的配置選項(xiàng)。每個(gè)實(shí)例配備了8個(gè)通過NVLink互連的NVIDIA Blackwell GPU,擁有1.4TB高帶寬顯存和最高3.2 Tbps的EFAv4網(wǎng)絡(luò)帶寬,同時(shí)搭載了第五代Intel Xeon Scalable處理器。與P5en實(shí)例相比,P6-B200實(shí)例在GPU計(jì)算能力、顯存容量和顯存帶寬方面均有顯著提升。
為了簡(jiǎn)化Amazon EC2 P6e-GB200 UltraServer和Amazon EC2 P6-B200實(shí)例的部署過程,亞馬遜云科技提供了多種部署路徑。客戶可以迅速開始使用Blackwell GPU,同時(shí)保持其現(xiàn)有的運(yùn)維模式不變。
Amazon SageMaker HyperPod也將支持這兩款新實(shí)例。通過優(yōu)化工作負(fù)載在同一NVLink域內(nèi)的運(yùn)行,HyperPod能夠最大化性能表現(xiàn)。亞馬遜云科技還構(gòu)建了一套完善的多層級(jí)恢復(fù)機(jī)制,能夠在同一NVLink域內(nèi)自動(dòng)替換故障節(jié)點(diǎn),確保服務(wù)的連續(xù)性和穩(wěn)定性。內(nèi)置儀表板提供了全面的可視化信息,包括GPU利用率、內(nèi)存使用情況、工作負(fù)載指標(biāo)和UltraServer的運(yùn)行狀態(tài)等。
Amazon EC2 P6e-GB200 UltraServer還將通過NVIDIA DGX Cloud平臺(tái)提供。DGX Cloud是一個(gè)經(jīng)過全面優(yōu)化的統(tǒng)一AI平臺(tái),具備多節(jié)點(diǎn)AI訓(xùn)練和推理能力,并集成了英偉達(dá)完整的AI軟件棧。客戶可以利用英偉達(dá)最新的性能優(yōu)化方案、基準(zhǔn)測(cè)試方法和技術(shù)專長(zhǎng),提升AI項(xiàng)目的效率和性能。該平臺(tái)還提供靈活的服務(wù)期限選擇和英偉達(dá)專家提供的全面支持與服務(wù),助力客戶加速推進(jìn)AI項(xiàng)目。