英偉達(dá)創(chuàng)始人兼CEO黃仁勛即將迎來(lái)一個(gè)關(guān)鍵時(shí)刻,他將在英偉達(dá)年度技術(shù)峰會(huì)GTC上發(fā)表演講,闡述公司探索AI新前沿的戰(zhàn)略方向。此次大會(huì)對(duì)英偉達(dá)股價(jià)的重振至關(guān)重要。
據(jù)摩根大通預(yù)測(cè),英偉達(dá)將在峰會(huì)上推出Blackwell Ultra芯片(GB300),并可能透露Rubin平臺(tái)的部分細(xì)節(jié)。大會(huì)將聚焦于AI硬件的全面升級(jí),涵蓋高性能GPU、HBM內(nèi)存、強(qiáng)化散熱和電源管理,以及CPO(共封裝光學(xué))技術(shù)路線圖。
在黃仁勛發(fā)表演講前,讓我們回顧一下英偉達(dá)近年來(lái)推出的GPU架構(gòu)及其背后的故事。
早在1999年底,英偉達(dá)推出了首款GPU——Geforce 256,它集成了完整的渲染管線,為圖形加速帶來(lái)了顯著提升。然而,這款產(chǎn)品尚不具備可編程能力,直到2001年隨著DX8引入可編程頂點(diǎn)著色器的概念,英偉達(dá)在Geforce 3中加入了Vertex Processor,使GPU得以編程。隨后,DX和OpenGL引入了更多可編程著色器,以滿足渲染開發(fā)者的需求。
GPU最初的設(shè)計(jì)并非針對(duì)深度學(xué)習(xí),而是圖形加速。在CUDA架構(gòu)出現(xiàn)之前,GPU對(duì)深度學(xué)習(xí)運(yùn)算的支持有限。真正用于人工智能算力支持的GPU是GPGPU(通用計(jì)算圖形處理器),它用于處理非特定需求的計(jì)算任務(wù)。
革命始于CUDA架構(gòu)的誕生。隨著GPU可編程能力的發(fā)掘,其并行計(jì)算潛力被廣泛認(rèn)可。2003年的SIGGRAPH大會(huì)上,業(yè)界泰斗級(jí)人物探討了利用GPU進(jìn)行各種運(yùn)算的可能性。盡管當(dāng)時(shí)開發(fā)者只能利用著色器編程語(yǔ)言開發(fā)程序,但GPU并行計(jì)算的潛力已顯而易見。斯坦福大學(xué)的Ian Bark看到了這一需求,投身到Brook語(yǔ)言的研發(fā)中,后成為GPU并行計(jì)算軟件棧的先驅(qū)。2006年,他加入英偉達(dá),兩年后開發(fā)出CUDA。
同年,英偉達(dá)推出了Tesla架構(gòu)的第一代產(chǎn)品G80,標(biāo)志著GPU通用計(jì)算探索的開始。G80采用全新的CUDA架構(gòu),支持C語(yǔ)言編程,可用于通用數(shù)據(jù)并行計(jì)算。這是英偉達(dá)命運(yùn)的轉(zhuǎn)折點(diǎn),開啟了并行加速時(shí)代。隨后,英偉達(dá)推出了第二代Tesla架構(gòu)GT200,雙精度FMA運(yùn)算速度大幅提升。
在G80和GT200兩代產(chǎn)品的基礎(chǔ)上,英偉達(dá)積累了大量用戶體驗(yàn)反饋,招募了首席科學(xué)家Bill Dally,最終推出了Fermi架構(gòu)。這是首款專為計(jì)算任務(wù)設(shè)計(jì)的GPU,不僅具備強(qiáng)大的圖形渲染能力,還重新定義了GPU的概念,旨在加速并行計(jì)算性能。GF100是首款基于Fermi架構(gòu)的GPU,集成了32億個(gè)晶體管。
之后,英偉達(dá)保持了大約兩年更新一次架構(gòu)的頻率。2012年推出的Kepler架構(gòu)支持超級(jí)計(jì)算和雙精度計(jì)算,性能和功耗顯著提升。2014年的Maxwell架構(gòu)是Kepler的升級(jí)版,優(yōu)化了低功耗和高性能需求,適用于移動(dòng)設(shè)備。2016年,Pascal架構(gòu)推出,專為深度學(xué)習(xí)設(shè)計(jì),支持所有主流深度學(xué)習(xí)計(jì)算框架。
面對(duì)深度學(xué)習(xí)領(lǐng)域的激烈競(jìng)爭(zhēng),英偉達(dá)在Pascal架構(gòu)推出次年就發(fā)布了Volta架構(gòu),引入了Tensor Core專門加速矩陣運(yùn)算,提升深度學(xué)習(xí)計(jì)算效率。隨后,Turing架構(gòu)進(jìn)一步增強(qiáng)Tensor Core功能,支持更多數(shù)據(jù)格式,并引入了光線追蹤技術(shù)。2020年的Ampere架構(gòu)則刷新了人們對(duì)Tensor Core的認(rèn)知,支持更多數(shù)據(jù)格式,并引入稀疏矩陣計(jì)算優(yōu)化。
英偉達(dá)在AI時(shí)代的領(lǐng)導(dǎo)地位日益凸顯。2016年,黃仁勛將首臺(tái)DGX-1超級(jí)計(jì)算機(jī)贈(zèng)予OpenAI。2022年,OpenAI發(fā)布的ChatGPT成為深度學(xué)習(xí)領(lǐng)域的里程碑。英偉達(dá)作為“賣鏟人”,發(fā)布了H100 GPU,憑借Hopper架構(gòu)成為地表最強(qiáng)并行處理器。Hopper架構(gòu)去除了RT Core,引入了Transformer引擎,專為深度學(xué)習(xí)計(jì)算優(yōu)化。
2024年,英偉達(dá)推出的Blackwell架構(gòu)為生成式AI帶來(lái)顯著飛躍。GB200超級(jí)芯片在處理LLM推理任務(wù)時(shí)性能提升高達(dá)30倍,能耗優(yōu)化高達(dá)25倍。還引入了第二代Transformer引擎和第五代NVLink技術(shù)。
英偉達(dá)GPU架構(gòu)的不斷創(chuàng)新和升級(jí),推動(dòng)了深度學(xué)習(xí)技術(shù)的邊界,為研究和應(yīng)用提供了強(qiáng)大計(jì)算支持,促進(jìn)了AI技術(shù)的快速發(fā)展。明日,黃仁勛將在GTC峰會(huì)上如何刷新人們的想象,值得期待。