【ITBEAR】2024年是至強的大年。
先于6月正式發布的至強?? 6700E系列開啟了全新的、更為簡潔命名方式:至強?? 6能效核。144核的規格也意味著英特爾在最近幾年當中首次在核心數量方面實現了領先。而且,這還并不是至強6的最強形態,畢竟大家都知道還有個6900P系列嘛。
9月26日,至強6這個“最強形態”終于正式發布,主要規格非常震撼。即使面對今年內晚于自己發布的其他廠商同級別CPU,至強?? 6900P的已有規格也戰力十足。
最強至強能有多強?
尤為值得一提的是:至強6900P也是業內首款性能核數量正式“破百”的產品,其他同級產品,不論是x86架構還是Arm架構都只達到了96核的水平。它們的性能核數量要追平英特爾,起碼得等到下個季度。
至強6900P的UPI2.0鏈路也有很大改進,速率提升到24GT/s,數量增加至6條,使得雙路互聯效率進一步提升。結合內核數量、內存帶寬等方面的全面提升,至強6900P可以被視作高算力+高存力平臺的最強機頭,不論是科學計算,還是AI集群。根據已透露的測試,至強6900P平臺的數據庫、科學計算等關鍵應用負載的表現是上一代產品的2.31倍-2.5倍,AI應用性能是其1.83倍-2.4倍不等。
至強6的擴展能力也有不小的提升。其中6900系列單插座不論是性能核還是能效核均可提供96通道PCIe 5.0,雙路即可提供192通道PCIe 5.0。未來上市的6700系列單路型號可以提供136通道PCIe 5.0,雙/多路型號單插槽也可以提供88通道。相較而言,第四、五代至強可擴展處理器的PCIe 5.0通道數量為80。CXL支持能力方面,至強6 6900、6700系列都支持64通道CXL 2.0。
更多的內核、更多的內存通道、更多的PCIe通道需要更大規模的插座接口支持。 至強6帶來了兩種接口:LGA 4710和LGA 7529。至強6900系列使用面積較大的LGA 7529插座,提供最強大的內存帶寬和擴展能力,是未來高性能、高密度服務器的基礎。至強6700以及未來的6500/6300系列使用LGA 4710,尺寸與第四、五代至強的LGA 4677相仿,內存、PCIe的通道數相同或相近,有利于主流服務器內部布局習慣的延續性。
改進的EUV:Intel 3
核心規模的飆升首先得益于至強產品線終于獲得EUV光刻機的加持。在2023年發布的酷睿Ultra已經率先使用了引入EUV的Intel 4制造工藝。而2024年發布的至強6則使用了進一步改良的Intel 3制造工藝。
Intel 3在更多的步驟中應用EUV光刻,可以提供更密集的設計庫、更高的晶體管驅動電流。Intel 3還有三種變體,包括3-T、3-E和3-PT。Intel 3、3-T是基本工藝,主要用于CPU;3-E是功能擴展;三者都支持TSV;Intel 3的這三種變體與Intel 4相比可以提升18%的性能功耗比。而3-PT進一步增加混合鍵合的支持能力,帶來了更高的性能并且易于使用。Intel 3所有四種節點變體都支持240 nm高性能和210 nm高密度庫,而Intel 4只支持240 nm高性能庫。
對于性能取向,Intel 3針對高性能運算進行優化,可以支持低電壓(<0.65V)和高壓(>1.3V)運行,且在各電壓下的頻率均高于Intel 4。
微架構大迭代
至強6900P采用的性能核微架構代號Redwood Cove。Redwood Cove也是近年來英特爾最重要的微架構迭代,不但給服務器產品線帶來了新名字,在消費類產品線同樣開啟了新的命名序列酷睿Ultra。
指令TLB翻倍,從128條增加到256條; 指令提取帶寬從每周期16字節翻倍到32字節; 解碼器從4路擴展到6路; 微操作緩存從2304條增加到4096條。 其他L1 BTB、L2 BTB等也有所提升。Golden Cove的后端當然也有提升,譬如重排序緩沖區、分支目標緩沖區也有大概30%左右的提升,只是相對前端幅度不那么大。
Redwood Cove相對Golden Cove/ Raptor Cove的最重要變化是:
指令緩存從32KB增加到了16路、64KB; 微操作隊列從144個條目增加到192個條目; 指令執行延遲降低; 更智能的預取和改進的BPU; L2緩存的帶寬有所提升 lAMX增加FP16支持能效核的指令緩存與性能核都是64KB,但數據緩存分別是32KB和48KB。前端的指令解碼器寬度也有差異,分別為6和8寬。指令亂序執行引擎差異較大,能效核是256條而性能核是512條。能效核不支持性能核所支持的AVX-512和AMX,這也可以明顯減小矢量運算單元的晶體管占用,但代價是每周期的單精度浮點運算次數有了數量級的差異。但能效核也改進了AVX2,增加了VNNI的INT8和BF16/FP16快速轉換,這樣在處理AI應用的時候表現也還有所改善。另外,其256位加密和1024/2048密鑰也獲得了能效核的支持,確保至強6平臺的安全水平基本一致。
緩存規模、前端寬度以及矢量單元的差異,使得至強6性能核和能效核有不同的定位。早先發布的至強6能效核更適合微服務等運算強度相對較輕,可在高核心數量和規模擴展方面收益的任務,以追求更高的能效、更高的機架利用率。而現在發布的至強6性能核更適合大數據、建模仿真等計算密集型和人工智能任務,為高性能優化,單顆處理器的功耗直飚500W——當然,跟同期發布的Gaudi AI加速器的新品或類似的加速器產品相比,能耗是應有的代價,有能力提升性能上限才是正經事。
內存性能大躍進
在至強6900P上,內存問題終于得到了比較好的解決。這涉及三個角度:
1、 大容量末級緩存。前面提到過,6900P每個網格提供4MB L3,總容量達到了504MB,分別是四代的4.5倍、五代的1.6倍。而且,至強的全網格架構使得任意內核訪問末級緩存的延遲相比其他廠商的一些產品有更優的表現,例如不需要跨計算單元而造成延遲劇增。這種架構效率更高的優勢也是至強在核數曾落后的情況下還能打的有來有往的關鍵原因。
2、 DDR5內存雙管齊下提升帶寬。至強6900系列支持12通道DDR5 6400,總帶寬可以達到614GB/s,平均每核的帶寬大致還有5GB/s的水平。6900P還支持新型內存MRDIMM,頻率提升至8800MT/s,總帶寬達到了845GB/s,平均每核6.6GB/s,也明顯超過了前兩代產品,大幅度逆轉了內核數量增加、平均內存帶寬不升反降的問題。
這里重點說一下CXL內存的優勢。CXL2.0支持鏈路分叉,使一個主機端口可以對接多個設備,而且提供更強的CXL內存分層支持,可實現容量和帶寬擴展。至強6支持3種CXL內存擴展模式:CXL Numa Node、CXL Hetero Interleaved、Flat Memory。
踏上Chiplet異構之路
至強6是至強家族首次將計算和IO芯片獨立,再通過Chiplet形式封裝在一起,總算是把高級封裝的優勢真正發揮出來了。
第四代至強可擴展處理器是英特爾的首個Chiplet設計的至強處理器。其XCC版本內部是4顆芯片通過10組EMIB對等連接,每顆芯片提供15個內核、2通道內存控制器、1組加速單元,以及UPI、PCIe PHY若干。另外,還可以通過EMIB封裝4顆HBM。
第五代至強可擴展處理器使用2顆芯片封裝而成,所使用的EMIB數量明顯減少,相應地也節約了芯片面積。雖然內核數量略有增加,但也損失了UPI、PCIe的數量,也不再能夠搭配HBM。
隨著制造工藝演進,偏重計算性能和晶體管密度的處理器內核,與偏重高速信號互聯的IO控制器對制造工藝的要求產生了差異,因此,典型的Chiplet設計將計算和IO分離,分別應用不同的制造工藝。英特爾在14代酷睿上便采用了這種方式,分為Compute Tile、SoC Tile、IO Tile、Graphic Tile。代號Ponte Vecchio的英特爾Data Center GPU Max利用Foveros和EMIB技術,將47個小芯片封裝在一起,包括Compute Die、Base Die、Rambo、IO Die等。
計算單元
根據收集到的信息,對于能效核,目前只出現了一種計算單元的設計,每個單元最多提供144個內核、4組內存控制器共八通道;對于性能核,則是有三種計算單元的設計,可分別用于組合高核數、中等核數、低核數的規格。
通過使用3種計算單元進行組合,至強6性能核可以構建跨度從8~128核的、非常綿密的規格。也許會有人認為,相比其他廠商只用一種規格計算單元實現擴展的設計,英特爾需要設計三顆不同的芯片的成本會更高。但我認為,這是英特爾優先考慮性能的結果。首先,至強6將內存控制器安排在計算單元中,離內核更近,延遲更低,即使因此犧牲了單元組合使用的靈活性也是值得的。其次,至強6性能核給不同規模的內核數量規劃不同的網格規模,有利于降低核間的延遲,甚至,有可能LCC會針對較低的核數改用環形總線。綜上,預計至強6性能核相對同等規模的其他廠商的產品依舊可能會擁有內存延遲低、緩存延遲低的優勢。
IO單元
IO單元方面,至強6900、6700系列都使用2顆相同的IO芯片。每個IO芯片由2個IO模塊、4個UIO模塊、2個加速器模塊,以及IO網絡接口構成。每個IO模塊提供x16 PCIe或CXL連接;每個UIO模塊提供x24 UPI2.0,或復用為x16的PCIe或CXL;每個加速器模塊提供DSA、IAA、QAT、DLB加速器各一個。
結語
至強6終于實現計算與IO的解耦,也讓至強6及未來的產品線走上了正確、靈活的道路,得以充分發揮Chiplet的優勢。將Chiplet視作降低成本、提高良率的手段是狹隘的。Chiplet的價值在于靈活、復用、重構。英特爾長期以來很注重細分市場的耕耘,產品線非常復雜,正確利用Chiplet可以達到事半功倍的效果。我們非常期待至強6后續產品的陸續發布能夠給業界帶來什么樣的想象力。
雷峰網