2024年是至强的大年。
先于6月正式发布的至强® 6700E系列敞开了全新的、更为简练命名方法:至强® 6 能效核。144核的规范也意味着英特尔在最近几年傍边初次在中心数量方面完成了抢先。并且,这还并不是至强6的最强形状,究竟咱们都知道还有个6900P系列嘛。
9月26日,至强6这个“最强形状”总算正式发布,首要规范十分震慑。即便面临今年内晚于自己发布的其他厂商平等级CPU,至强® 6900P的已有规范也战力十足。
最强至强能有多强?
英特尔代号Birch Stream的新一代服务器渠道所选用的至强6处理器是分批次发布的。6月发布的是代号Sierra Forest的能效核处理器6700E系列(E后缀即Efficiency Core,能效核的符号),现在发布的是代号Granite Rapids的功用核6900P系列。今年末和明年初还会连续发布6900E、6700P,以及6500/6300等。未来的Intel 18A制作工艺的处理器,如Clearwater Forest,也会持续用于Birch Stream渠道。
至强6900P是英特尔专为核算密布型作业负载规划的处理器,也是Granite Rapids的“完整体”。后缀的“P”意味其选用的是Performance Core,即功用核,规划大、功用强;6900的数字类型则阐明其间心装备拉满——供给了72到128核的多种规范,TDP有400W和500W两种,组合成已揭露5种类型,显得比较简练。当然,按照常规,云厂商等大客户还会有若干定制类型的。单就内核数量而言,6900P系列相对前两代“Rapids”产品线顶配的56/60(Sapphire Rapids)或64核(Emerald Rapids)直接翻倍!如此巨大的迭代起伏十分稀有,也难怪英特尔要改命名方法了,由外至内都透着一个意思:厚积薄发、面貌一新。
尤为值得一提的是:至强6900P也是业界首款功用核数量正式“破百”的产品,其他同级产品,不论是x86架构仍是Arm架构都只到达了96核的水平。它们的功用核数量要追平英特尔,最少得比及下个季度。
跟着内核规划添加,至强6900P的L3缓存到达了504MB。为了合作倍增的核数和显着进步的算力,至强6900系列的存力也大为增强,内存带宽方面不只支撑12通道DDR5 6400;并引进了新式内存MR DIMM,把数据率大幅进步至8800MT/s,根本内存带宽可以到达第五代至强可扩展处理器的2.3倍。别的,至强6还支撑CXL 2.0,尤其是包含Type 3设备(也便是CXL内存),可以进一步扩展内存容量和带宽。
至强6900P的UPI2.0链路也有很大改善,速率进步到24GT/s,数量添加至6条,使得双路互联功率进一步进步。结合内核数量、内存带宽等方面的全面进步,至强6900P可以被视作高算力+高存力渠道的最强机头,不论是科学核算,仍是AI集群。依据已泄漏的测验,至强6900P渠道的数据库、科学核算等要害运用负载的体现是上一代产品的2.31倍-2.5倍,AI运用功用是其1.83倍-2.4倍不等。
至强6的扩展才能也有不小的进步。其间6900系列单插座不论是功用核仍是能效核均可供给96通道PCIe 5.0,双路即可供给192通道PCIe 5.0。未来上市的6700系列单路类型可以供给136通道PCIe 5.0,双/多路类型单插槽也可以供给88通道。相较而言,第四、五代至强可扩展处理器的PCIe 5.0通道数量为80。CXL支撑才能方面,至强6 6900、6700系列都支撑64通道CXL 2.0。
更多的内核、更多的内存通道、更多的PCIe通道需求更大规划的插座接口支撑。 至强6带来了两种接口:LGA 4710和LGA 7529。至强6900系列运用面积较大的LGA 7529插座,供给最强壮的内存带宽和扩展才能,是未来高功用、高密度服务器的根底。至强6700以及未来的6500/6300系列运用LGA 4710,尺度与第四、五代至强的LGA 4677相仿,内存、PCIe的通道数相同或附近,有利于干流服务器内部布局习气的连续性。
改善的EUV:Intel 3
中心规划的飙升首要得益于至强产品线总算取得EUV光刻机的加持。在2023年发布的酷睿Ultra现已首要运用了引进EUV的Intel 4制作工艺。而2024年发布的至强6则运用了进一步改善的Intel 3制作工艺。
2021年7月,英特尔CEO帕特·基尔辛格发布了“四年五个制程节点”(5N4Y)的工艺路线图。Intel 3的量产时刻节点坐落2023年末,节奏根本契合方案。从依据Intel 4制作工艺的酷睿Ultra的商场体现看,EUV的加持的确显着进步了英特尔处理器的竞赛力。至强6所选用的Intel 3制作工艺相对Intel 4可以规划更多的金属层、具有更多细分版别。
Intel 3在更多的进程中运用EUV光刻,可以供给更密布的规划库、更高的晶体管驱动电流。Intel 3还有三种变体,包含3-T、3-E和3-PT。Intel 3、3-T是根本工艺,首要用于CPU;3-E是功用扩展;三者都支撑TSV;Intel 3的这三种变体与Intel 4比较可以进步18%的功用功耗比。而3-PT进一步添加混合键合的支撑才能,带来了更高的功用并且易于运用。Intel 3一切四种节点变体都支撑240 nm高功用和210 nm高密度库,而Intel 4只支撑240 nm高功用库。
关于功用取向,Intel 3针对高功用运算进行优化,可以支撑低电压(<0.65V)和高压(>1.3V)运转,且在各电压下的频率均高于Intel 4。
微架构大迭代
至强6900P选用的功用核微架构代号Redwood Cove。Redwood Cove也是近年来英特尔最重要的微架构迭代,不光给服务器产品线带来了新姓名,在消费类产品线相同敞开了新的命名序列酷睿Ultra。
咱们先快速回忆一下Redwood Cove的上一代Golden Cove/ Raptor Cove。Golden Cove其实也是十分重要的迭代,在消费类敞开了巨细核年代(第12代酷睿处理器),在服务器上便是第四代至强可扩展处理器。Golden Cove相对其前代的微架构大起伏进步了前端:
指令TLB翻倍,从128条添加到256条;指令提取带宽从每周期16字节翻倍到32字节;解码器从4路扩展到6路;微操作缓存从2304条添加到4096条。其他L1 BTB、L2 BTB等也有所进步。
Golden Cove的后端当然也有进步,比如重排序缓冲区、分支方针缓冲区也有大约30%左右的进步,仅仅相对前端起伏不那么大。
Raptor Cove的微架构与Golden Cove差异不大,体现在实践产品上首要是缓存的进步,如依据Raptor Coved的第13代酷睿(Raptor Lake)的每中心L2缓存从12代(Alder Lake)的1.25MB进步到2MB;第五代至强可扩展处理器(Emerald Rapids)和第四代(Sapphire Rapids)每个中心的L2缓存都是2MB,但前者每个网格的末级缓存(Last Level Cache,也可持续俗称为L3缓存)从后者的1.875MB猛增到5MB。
Redwood Cove相对Golden Cove/ Raptor Cove的最重要改变是:
指令缓存从32KB添加到了16路、64KB;微操作队伍从144个条目添加到192个条目;指令履行推迟下降;更智能的预取和改善的BPU;L2缓存的带宽有所进步AMX添加FP16支撑
当然,Redwood Cove还有一个严重的优势便是“命好”,也便是前面说到的EUV制作工艺。但即便有革命性的制作工艺加持,至强6功用核也没过火扩张每个内核的规划。就至强6功用核的内核而言,每个网格节点是一个P核,每个P核装备私有的2MB L2缓存,以及同享的4MB 末级缓存。尽管均匀到每个核的缓存容量并不比上一代至强(Emerald Rapids)多,但胜在总核数翻倍后。至强6功用核每个处理器可同享的末级缓存总容量仍旧到达504MB,远超第五代的320MB和第四代的112.5MB。
在此也趁便提一下至强6能效核的微架构Crestmont。这个微架构相同呈现在了酷睿Ultra的能效核傍边。Crestmont是2或4个内核为一组同享L2缓存。在至强6能效核傍边,每2或4个内核与4MB的L2缓存(在酷睿Ultra中则为2MB)构成一个模块,这几个内核同享频率和电压域。这个模块对应的网格还具有可整个处理器悉数内核同享的3MB的末级缓存。换句话说,尽管至强6能效核的核数更多,但实践上网格规划比至强6功用核小。
能效核的指令缓存与功用核都是64KB,但数据缓存别离是32KB和48KB。前端的指令解码器宽度也有差异,别离为6和8宽。指令乱序履行引擎差异较大,能效核是256条而功用核是512条。能效核不支撑功用核所支撑的AVX-512和AMX,这也可以显着减小矢量运算单元的晶体管占用,但价值是每周期的单精度浮点运算次数有了数量级的差异。但能效核也改善了AVX2,添加了VNNI的INT8和BF16/FP16快速转化,这样在处理AI运用的时分体现也还有所改善。别的,其256位加密和1024/2048密钥也取得了能效核的支撑,保证至强6渠道的安全水平根本共同。
缓存规划、前端宽度以及矢量单元的差异,使得至强6功用核和能效核有不同的定位。新近发布的至强6能效核更适合微服务等运算强度相对较轻,可在高中心数量和规划扩展方面收益的使命,以寻求更高的能效、更高的机架运用率。而现在发布的至强6功用核更适合大数据、建模仿真等核算密布型和人工智能使命,为高功用优化,单颗处理器的功耗直飚500W——当然,跟同期发布的Gaudi AI加快器的新品或相似的加快器产品比较,能耗是应有的价值,有才能进步功用上限才是正经事。
内存功用大跃进
内存(DRAM)的数据存储依靠电容,这个特色使其微缩和提速的难度大于晶体管。因而内存并没有沾摩尔定律的光,带宽和密度的添加落后于CPU、GPU的开展。内存带宽滞后于CPU内核数量的添加导致一个长时间问题:均匀每个内核的内存带宽添加乏力,乃至呈现后退。比如第三代至强可扩展处理器内核数28,内存是八通道DDR4 3200,理论上的内存总带宽为205GB/s,均匀每核7.3GB/s;四代是56或60核,内存八通道DDR5 4800,总带宽307GB/s,均匀每核5.5GB/s;五代进步到DDR5 5600,内核再添加到64,均匀带宽改善甚微。第四、五代至强可扩展处理器尽管引进了新一代的DDR5内存,但因为内核数量相对三代翻倍,内存带宽的添加起伏仍是跟不上。同时期其他厂商的CPU核数在屡次跃进的进程傍边也存在相同的问题。为了补偿内存带宽添加较慢的问题,第四代至强可扩展处理器给部分用于科学核算的类型引进了HBM,五代则大起伏添加了末级缓存的容量,并支撑CXL 2.0内存扩展。
在至强6900P上,内存问题总算得到了比较好的处理。这触及三个视点:
1、 大容量末级缓存。前面说到过,6900P每个网格供给4MB L3,总容量到达了504MB,别离是四代的4.5倍、五代的1.6倍。并且,至强的全网格架构使得恣意内核拜访末级缓存的推迟比较其他厂商的一些产品有更优的体现,例如不需求跨核算单元而构成推迟剧增。这种架构功率更高的优势也是至强在核数曾落后的情况下还能打的有来有往的要害原因。
2、 DDR5内存左右开弓进步带宽。至强6900系列支撑12通道DDR5 6400,总带宽可以到达614GB/s,均匀每核的带宽大致还有5GB/s的水平。6900P还支撑新式内存MRDIMM,频率进步至8800MT/s,总带宽到达了845GB/s,均匀每核6.6GB/s,也显着超越了前两代产品,大起伏反转了内核数量添加、均匀内存带宽不升反降的问题。
MR(Multiplexed Rank)DIMM打开了DDR内存功用进步的新方向。DRAM一般由1到2个Rank组成,每个Rank的位宽为64位,假如考虑ECC,那就会有72或80位,但有用的数据是64位。消费类内存(UDIMM)或许只要1个Rank(颗粒数量较少的情况下),但寻求大容量的服务器内存(RDIMM)根本上都至少有2个Rank。在以往的内存方法傍边,一次只读取一个Rank的数据,另一个Rank暂时搁置时可以做改写操作,以坚持数据——这种轮番读取、改写Rank的特色连续了多年。MRDIMM规划了一个数据缓冲区,经过将两个内存Rank别离读入这个缓冲区,再从缓冲区一次性传输到CPU的内存操控器,由此完成了带宽翻倍。第一代DDR5 MRDIMM的方针速率为8800 MT/s,其实每个Rank只相当于4400MT/s。现在DDR5 6400现已开端遍及,因而MR DIMM的第二阶段方针是到达12800 MT/s,估量在2030年代的三代会进步至17600 MT/s。
3、 CXL 内存扩展。第四代至强可扩展处理器开端引进CXL支撑,其时是1.1版别,暂时也没有揭露支撑Type 3设备(也便是CXL内存)。从第五代开端正式引进了CXL 2.0,包含Type 3,可以协助扩展内存容量和带宽。在至强6上,CXL设备的运用将更为遍及,要害的CXL2.0规范设备,以及后向兼容的CXL1.1设备,估量都会连续呈现。
这儿要点说一下CXL内存的优势。CXL2.0支撑链路分叉,使一个主机端口可以对接多个设备,并且供给更强的CXL内存分层支撑,可完成容量和带宽扩展。至强6支撑3种CXL内存扩展方法:CXL Numa Node、CXL Hetero Interleaved、Flat Memory。
在CXL Numa Node方法下,体系的规范内存和CXL扩展内存被视为两个独立的Numa节点进行操控。每个Numa节点都有自己的内存地址空间,体系软件或运用程序可以将使命分配到不同的Numa节点,然后优化内存的运用。CXL Numa Node方法适用于需求精密内存办理的运用,可以经过操作体系、虚拟机办理程序(Hypervisor)或运用程序自身来辅佐分层办理内存。
Hetero Interleaved(异构交错)方法经过将体系的规范内存和CXL内存混合在一起,构成一个一致的Numa节点。每个内存地址空间中的数据可以替换存储在DRAM和CXL内存中,然后均衡内存带宽,削减推迟。异构交错方法适用于对内存带宽有高需求的运用,特别是当需求将DRAM和CXL内存结合运用时。此方法只要在装备功用核的至强6700P、6900P上才支撑。假定将每颗至强6900P的64通道CXL用满,可以额定添加256GB/s的内存带宽,单处理器就可以完成TB级的内存带宽,仍是相当可观的。
Flat Memory(平面内存)方法下,CXL内存和规范内存被视为单一的内存层,操作体系可以直接拜访一致的内存地址空间。硬件辅佐的分层办理可以保证常用数据优先存储在规范内存中,非必须数据存储在CXL内存中,然后最大极限地进步内存运用功率。平面内存方法最大的价值在于无需修正软件即可运用CXL内存扩展,并且这种方法适用于一切的至强6处理器。但平面内存方法要求规范内存和CXL内存是1:1装备,这略为约束了硬件采办、晋级的灵敏性。整体而言,平面内存方法是至强6时期最易用、收效最直观的方法,有望成为CXL内存扩展的首要方法。
踏上Chiplet异构之路
至强6是至强宗族初次将核算和IO芯片独立,再经过Chiplet方法封装在一起,总算是把高档封装的优势真实发挥出来了。
第四代至强可扩展处理器是英特尔的首个Chiplet规划的至强处理器。其XCC版别内部是4颗芯片经过10组EMIB对等衔接,每颗芯片供给15个内核、2通道内存操控器、1组加快单元,以及UPI、PCIe PHY若干。别的,还可以经过EMIB封装4颗HBM。
第五代至强可扩展处理器运用2颗芯片封装而成,所运用的EMIB数量显着削减,相应地也节省了芯片面积。尽管内核数量略有添加,但也丢失了UPI、PCIe的数量,也不再可以调配HBM。
跟着制作工艺演进,侧重核算功用和晶体管密度的处理器内核,与侧重高速信号互联的IO操控器对制作工艺的要求产生了差异,因而,典型的Chiplet规划将核算和IO别离,别离运用不同的制作工艺。英特尔在14代酷睿上便选用了这种方法,分为Compute Tile、SoC Tile、IO Tile、Graphic Tile。代号Ponte Vecchio的英特尔Data Center GPU Max运用Foveros和EMIB技能,将47个小芯片封装在一起,包含Compute Die、Base Die、Rambo、IO Die等。
至强6总算也拆分红核算单元(Compute Tile)和IO单元(IO Tile),别离由Intel 3和Intel 7工艺制作。
核算单元
依据收集到的信息,关于能效核,现在只呈现了一种核算单元的规划,每个单元最多供给144个内核、4组内存操控器共八通道;关于功用核,则是有三种核算单元的规划,可别离用于组合高核数、中等核数、低核数的规范。
至强6900P运用了三个核算单元,每个单元43个内核、两个内存操控器,一共构成129个内核(只运用128个)和12个内存通道。这种核算单元权且称之为单元A,三个单元A构成的处理器被称为UCC。
未来发布的6700P核数跨度会很大,其间单路类型规划为16~80核,多路类型为8~86核。单元A有4个内存通道,两个单元A组合可以供给最高86核,下限应该不低于48核(不然屏蔽的内核数量就真实太多,也太糟蹋EMIB本钱),这种规划的处理器被称为XCC。48核以下的中等核数被称为HCC,运用一种专门开发的单元B,每个单元供给48个内核和4个内存操控器。HCC核数的下限估量在24核左右。8和16核的6700P被称为LCC,需求运用第三种单元C,16个内核和4个内存操控器。
经过运用3种核算单元进行组合,至强6功用核可以构建跨度从8~128核的、十分绵密的规范。或许会有人以为,比较其他厂商只用一种规范核算单元完成扩展的规划,英特尔需求规划三颗不同的芯片的本钱会更高。但我以为,这是英特尔优先考虑功用的成果。首要,至强6将内存操控器安排在核算单元中,离内核更近,推迟更低,即便因而献身了单元组合运用的灵敏性也是值得的。其次,至强6功用核给不同规划的内核数量规划不同的网格规划,有利于下降核间的推迟,乃至,有或许LCC会针对较低的核数改用环形总线。综上,估量至强6功用核相对平等规划的其他厂商的产品仍旧或许会具有内存推迟低、缓存推迟低的优势。
IO单元
IO单元方面,至强6900、6700系列都运用2颗相同的IO芯片。每个IO芯片由2个IO模块、4个UIO模块、2个加快器模块,以及IO网络接口构成。每个IO模块供给x16 PCIe或CXL衔接;每个UIO模块供给x24 UPI2.0,或复用为x16的PCIe或CXL;每个加快器模块供给DSA、IAA、QAT、DLB加快器各一个。
以这次发布的至强6900P为例,两个IO单元一共供给8个UIO和4个IO模块。其间6组UIO担任供给6个UPI2.0互连,剩下的2个UIO和4个IO模块正好供给6×16=96通道的PCIe 5.0。双路至强6900P的UPI不光速率高(24GT/s,高于五代的20GT/s和四代的16GT/s),衔接数量也进步了50%。
关于还未发布、也是主力产品的至强6700系列,估量因为要运用规划较小的插座,只供给最多4组UPI用于多路的互联,PCIe通道也有所减缩。但即便如此,至强6700系列的单路类型在将一切UIO装备为PCIe之后,单插槽就可以供给多达136个PCIe通道,或64通道CXL。假如用单路至强6700合作半宽主板构建双节点服务器,那一个机箱内的PCIe/CXL扩展才能(272 /128)远远超越已知的任何双路服务器。这种机箱或许会成为新的池化形状,可以更高的密度供给NVMe存储、CXL内存、加快器等。
结语
因为英特尔在14nm到10nm制作工艺的迭代进程遇到了一些问题,致使此前几代至强渠道在“核战”(比拼核数)中略显被迫,但这个局势在至强6上有望彻底反转,改善后的EUV制作工艺看来没有捆绑至强6的实力,中心数量、缓存容量、内存带宽等要害目标全都进入抢先队伍,一句话总结便是算力和存力的体现悉数拉满。至强6900P系列在各种项目的测验傍边,其代际功用进步就都是以倍数计,而非百分之十几、几十的前进。这种局势也使得英特尔得以全面竞赛科学核算、大数据、AI等范畴的功用王座。
此外,至强6总算完成核算与IO的解耦,也让至强6及未来的产品线走上了正确、灵敏的路途,得以充分发挥Chiplet的优势。将Chiplet视作下降本钱、进步良率的手法是狭窄的。Chiplet的价值在于灵敏、复用、重构。英特尔长时间以来很重视细分商场的耕耘,产品线十分复杂,正确运用Chiplet可以到达事半功倍的作用。咱们十分等待至强6后续产品的连续发布可以给业界带来什么样的想象力。