近年來(lái),超算等高性能系統(tǒng)的功率密度,始終保持著高速增長(zhǎng)。不過(guò)臺(tái)積電在其年度技術(shù)研討會(huì)上表示 —— 計(jì)算領(lǐng)域的一個(gè)明顯趨勢(shì),就是每個(gè)芯片和機(jī)架單元的功耗,并不會(huì)坐等受到傳統(tǒng)風(fēng)冷散熱的限制。顯然,晶體管功耗的降低,并沒(méi)有其尺寸縮減那樣快。由于芯片制造商不會(huì)放棄性能上的定期增長(zhǎng),HPC 領(lǐng)域的晶體管功率正在飛漲。

(via AnandTech)
另一方面,小芯片技術(shù)正在為構(gòu)建更強(qiáng)大的芯片鋪平道路。但在性能與延遲優(yōu)勢(shì)之外,其在散熱方面遇到的問(wèn)題也不容忽視。
以臺(tái)積電為例,這家芯片代工巨頭擁有 CoWoS 和 InFO 等現(xiàn)代技術(shù),允許芯片制造商突破傳統(tǒng)標(biāo)線限制、構(gòu)建集成更多芯片的系統(tǒng)級(jí)封裝(SiP)。
通過(guò)將四個(gè)標(biāo)線大小的芯片結(jié)合到一起,其復(fù)雜性也會(huì)迎來(lái)巨大的增長(zhǎng) —— 每個(gè) SiP 或擁有超過(guò) 3000 億個(gè)晶體管。但在性能增長(zhǎng)的同時(shí),臺(tái)積電及其合作伙伴也付出了功耗與發(fā)熱方面的代價(jià)。
至于英偉達(dá)的 H100 加速卡,此類(lèi)旗艦產(chǎn)品的峰值性能功耗動(dòng)輒超過(guò) 700W,所以在單封裝系統(tǒng)里使用多個(gè) GH100 芯片的難度也是可想而知。

如果找不到更好的辦法,未來(lái)我們需要為 1kW 及以上的多芯片 SiP 做好準(zhǔn)備,以應(yīng)對(duì)功耗 / 散熱方面的嚴(yán)峻挑戰(zhàn)。
除了 700W 的英偉達(dá) H100,英特爾 Ponte Vecchio 和 AMD Instinct MI250X 的故事也大致相同,且傳統(tǒng)水冷散熱方案也有其局限性。
當(dāng)芯片封裝功率邁過(guò) 1000W 的關(guān)口時(shí),臺(tái)積電設(shè)想數(shù)據(jù)中心需要為此類(lèi)極端的 AI / HPC 處理器使用浸沒(méi)式的液冷散熱系統(tǒng),結(jié)果就是需要徹底重新改造數(shù)據(jù)中心的結(jié)構(gòu)。
盡管面臨著短期和持續(xù)性挑戰(zhàn),英特爾等科技巨頭還是相當(dāng)看好浸沒(méi)式液冷散熱方案,并希望推動(dòng)這項(xiàng)技術(shù)變得更加主流。

此外去年,臺(tái)積電有透露其已嘗試過(guò)片上水冷方案,甚至據(jù)說(shuō)可應(yīng)對(duì) 2.6 kW 的 SiP 散熱需求。
對(duì)于愿意為此買(mǎi)單的客戶(hù)(比如超大規(guī)模云數(shù)據(jù)中心的運(yùn)營(yíng)商們)來(lái)說(shuō),其有望推動(dòng)究極 AI / HPC 解決方案的發(fā)展,但缺點(diǎn)是技術(shù)復(fù)雜性和成本都相當(dāng)高昂。
此前我們已經(jīng)在 Cerebras 的大型“晶圓級(jí)”處理器產(chǎn)品上看到過(guò)相關(guān)演示(需要高功率壓縮機(jī)來(lái)為芯片散熱),但初期臺(tái)積電還是會(huì)繼續(xù)打磨 CoWoS 和 InFO 等封裝工藝,以突破傳統(tǒng)芯片設(shè)計(jì)的標(biāo)線限制。