Aurora是Intel近年來參與的最受期待和最引人注目的項(xiàng)目之一,它是對Intel整個(gè)系統(tǒng)組合的大膽投注。預(yù)計(jì)這臺機(jī)器將是首臺峰值性能達(dá)到2 exaflops(2x10^18)浮點(diǎn)運(yùn)算每秒的超級計(jì)算機(jī)。
作為位于伊利諾伊州阿貢國家實(shí)驗(yàn)室的Aurora超級計(jì)算機(jī)的首席架構(gòu)師和首席研究員,Olivier Franza在實(shí)現(xiàn)這一最具雄心的科學(xué)儀器中發(fā)揮了領(lǐng)導(dǎo)作用,更不用說它還是世界上最大的GPU集群了。
這給了Franza一些壓力,他是Intel的22年資深員工,2016年作為系統(tǒng)硬件架構(gòu)師加入Aurora項(xiàng)目,并監(jiān)督向基于GPU的機(jī)器的轉(zhuǎn)變,于2021年成為首席架構(gòu)師。
Franza解釋說:“首席架構(gòu)師負(fù)責(zé)根據(jù)客戶的高級要求定義超級計(jì)算機(jī)的整體系統(tǒng)架構(gòu)。有一些基本的要求,如總體性能指標(biāo)和功率范圍,但也有如RAS——可靠性、可用性、可維護(hù)性——這些對構(gòu)建可擴(kuò)展系統(tǒng)至關(guān)重要的內(nèi)在特性。”
他的職責(zé)還包括從節(jié)點(diǎn)到機(jī)架到完整系統(tǒng)的系統(tǒng)拓?fù)涞募?xì)節(jié),包括其網(wǎng)絡(luò)結(jié)構(gòu)和存儲(chǔ)組件。
路線圖樞軸為塑造未來產(chǎn)品提供了機(jī)會(huì)
初始規(guī)劃開始時(shí),Aurora作為美國能源部贊助的系統(tǒng),其設(shè)計(jì)由一系列Intel技術(shù)組成。然而,Intel產(chǎn)品路線圖的變化,特別是Xeon Phi和Omnipath產(chǎn)品家族的結(jié)束,需要重新開始。當(dāng)Intel制定了構(gòu)建數(shù)據(jù)中心GPU的計(jì)劃時(shí),F(xiàn)ranza參與了Intel® 數(shù)據(jù)中心GPU Max系列(代號Ponte Vecchio)的設(shè)計(jì)討論。
從這個(gè)角度看,Aurora不僅僅是一個(gè)獨(dú)立的系統(tǒng)。相反,它幫助塑造了Intel整體的策略和產(chǎn)品組合,以在最高級別解決規(guī)模和性能問題。
Franza表示:“我們將所有Aurora系統(tǒng)級的要求融入到組件級。”
例如,Intel Xeon CPU Max系列與高帶寬內(nèi)存的架構(gòu)和概念,起初是由一些來自Intel Xeon Phi平臺的特性產(chǎn)生的,這是第一個(gè)集成了高帶寬和高容量的創(chuàng)新內(nèi)存架構(gòu)的產(chǎn)品。
此外,對高性能的需求進(jìn)一步推動(dòng)了所有子系統(tǒng)的進(jìn)步,從計(jì)算刀片的熱機(jī)械解決方案到其高密度物理集成,到存儲(chǔ)。
Franza表示:“Intel構(gòu)建了一個(gè)全新的存儲(chǔ)概念,DAOS(分布式異步對象存儲(chǔ))。” 這是一個(gè)開源軟件生態(tài)系統(tǒng),用于在傳統(tǒng)硬件上實(shí)現(xiàn)高速存儲(chǔ)。“Aurora將是第一個(gè)使用它的系統(tǒng),而且是迄今為止最大的。”
從設(shè)計(jì)組件到將數(shù)千個(gè)系統(tǒng)連接在一起
Aurora項(xiàng)目推動(dòng)了系統(tǒng)級思考和Intel內(nèi)部各個(gè)業(yè)務(wù)部門之間的廣泛合作,以及與阿貢科學(xué)家和項(xiàng)目的另一個(gè)主要合作伙伴惠普企業(yè)的工程師的合作。
Franza表示:“讓整個(gè)團(tuán)隊(duì)齊心協(xié)力、交付像Aurora這樣的機(jī)器,對我們許多人來說,是一生中只有一次的經(jīng)歷。”
盡管工程師們在六月份安裝了最后的刀片,但Franza仍在夜間繼續(xù)進(jìn)行該項(xiàng)目,因?yàn)橄到y(tǒng)正經(jīng)過測試、穩(wěn)定和驗(yàn)證的階段。
他為一個(gè)大團(tuán)隊(duì)提供指導(dǎo),該團(tuán)隊(duì)正在進(jìn)行系統(tǒng)啟動(dòng)、驗(yàn)證、穩(wěn)定、優(yōu)化和使全系統(tǒng)性能工作負(fù)載啟用的工作。最值得注意的是High Performance Linpack(HPL)基準(zhǔn)測試,該測試確定了世界上的頂級系統(tǒng),由半年度Top500名單認(rèn)證。
Franza每天早上參加每日站會(huì),仔細(xì)檢查每個(gè)節(jié)點(diǎn)的夜間運(yùn)行,并制定第二天和未來工作的計(jì)劃。每天下午,一個(gè)每日總結(jié)會(huì)議總結(jié)了進(jìn)展和障礙。工作永無止境;機(jī)器始終運(yùn)行。
他解釋說:“我們采取逐步方法,在大規(guī)模上進(jìn)行驗(yàn)證和穩(wěn)定。” “你從刀片開始,然后移到機(jī)架,然后是多個(gè)機(jī)架,然后從那里擴(kuò)展。”
Aurora 由 10,624 個(gè)計(jì)算刀片組成,在 166 個(gè)機(jī)架上擁有 63,744 個(gè) Intel Max 系列 GPU(GPU 數(shù)量比世界上任何其他系統(tǒng)都多)和 21,248 個(gè) Intel Xeon Max CPU。
他說:“它的大小相當(dāng)于四個(gè)網(wǎng)球場,聽起來很多,對吧?” “但只有當(dāng)你真正去看它時(shí),你才會(huì)意識到這個(gè)項(xiàng)目的巨大規(guī)模。”
Franza必須確保這個(gè)龐大的系統(tǒng)是穩(wěn)定的、功能正常的和高效的。這是一個(gè)艱巨的任務(wù),但終點(diǎn)即將到來。
他說:“走在過道上,所有的燈都亮著,感覺到機(jī)器正在運(yùn)行是令人印象深刻的,顯然也是非常有成就感的。” “這是一個(gè)顯而易見的成就。”
“一生一次”的努力,塑造科學(xué)的超級計(jì)算機(jī)
使他繼續(xù)前進(jìn)的是建造“一個(gè)非凡的機(jī)器”的機(jī)會(huì),這將為有影響力的研究提供動(dòng)力。他引用了Aurora在癌癥研究方面的巨大潛力作為項(xiàng)目將造福我們所有人的一個(gè)領(lǐng)域。
他說:“我認(rèn)為這是使我們非常自豪的一件事。”
Aurora不僅將致力于解決世界上最復(fù)雜的科學(xué)和工程問題,它還將是一個(gè)理想的平臺,用于運(yùn)行生成式AI并將其應(yīng)用于研究。“它將啟用計(jì)劃中最大的大型語言模型,即1萬億參數(shù)的Aurora GenAI項(xiàng)目,增強(qiáng)、啟用并簡化科學(xué)家的生活,”Franza說。
但他最享受的是團(tuán)隊(duì)合作和友情。
他說:“這是一個(gè)持續(xù)的努力,需要很大的毅力。” “核心團(tuán)隊(duì)保持了馬拉松的心態(tài),直到結(jié)束都不結(jié)束。我們需要那種能夠長時(shí)間有效地關(guān)注某件極具挑戰(zhàn)性的事情的人。最后,所取得的成就是很少有人可以說他們?nèi)〉眠^的。”
文章來源:半導(dǎo)體行業(yè)觀察