当CPU功耗踏入500W时代传统服务器架构,已难以为继散热、供电、扩展性……不再是微调,而是需要系统性的审视与构建怎样的服务器架构能适应未来?让我们走进新一代戴尔PowerEdge服务器用实测,揭开“数智”时代的架构答卷
戴尔科技在去年底发布了新一代 PowerEdge 服务器,首批产品线为 AMD 平台,支持第五代 EPYC 处理器。新一代的处理器的核心数量、性能等方面有了巨大的提升,功耗水平也达到了 500W。
随着处理器的“上限”猛增,新的服务器平台首先必须能够提供匹配的功耗、散热能力支持;其次,必须能够适应更多样化的应用场景,平衡传统业务与新兴业务的需求。
戴尔新一代 PowerEdge 服务器平台的诞生并不只是被动地跟随处理器迭代,而是为了更好地兼顾上述两种价值取向,协调性能与弹性的发展需要。
戴尔 PowerEdge R7725是PowerEdge最新一代服务器家族中,首批上市的2U双路机架式服务器,配合第五代EPYC处理器,可提供出色的性能密度,尤其适用于大数据分析、深度学习,以及高性能计算等负载。
为了充分理解新一代 PowerEdge 服务器平台的跨代变化,E企研究院对 PowerEdge R7725 进行了深入测试,涵盖架构演进、整机设计细节以及在实际负载下的性能表现。
同时作为对照,我们(下文中的“我们”均指 E企研究院)也对上一代服务器 PowerEdge R7625 进行了测试,以全面评估新旧平台在应对高功耗、高密度算力需求下的差异与提升。
处理器更新是表
第五代 EPYC 处理器基于 Zen 5 和 Zen 5C 架构。
● Zen 5 架构的 CCD 制造工艺升级到 4nm,单封装内的 CCD 数量从12个提升至16个,提供最多128核,最高频率可以达到 5GHz;
● Zen 5C的CCD制造工艺升级到 3nm,单封装内的CCD数量从8个提升至12个,提供最多192核。
EPYC 9005 继续使用 SP5 接口,IOD 与上一代相同,内存控制器仍为12通道内存,但速率从 4800MT/s 提升至 6000/6400MT/s;PCIe 5.0 通道仍为最多160条,CXL 支持从1.1升级至 2.0。
随着处理器性能大幅提升的还有功耗,最高达到 500W。乍看之下,为了配合 EPYC 9755 处理器的更高功耗,戴尔 PowerEdge R7725 配置的散热器体积明显增大,热管数量更大,投影面积也更大。
与以往羊角造型散热器将散热片向风扇墙方向延伸不同,戴尔 PowerEdge R7725 将散热片向内存上方展开,有效面积更大,不占用额外机箱深度。
在支持更高功率处理器(360W 提升至 500W),提供更多扩展能力(如前窗 E3.S 从 32 块增加到40块、后窗 PCIe 5.0 插槽倍增到8个)的基础上,R7725的机身深度只比 R7625 增加了43毫米。
由于更大的散热器对内存槽区域有所遮挡,戴尔特意在散热器顶部贴上了标签,以示意内存槽安装方向。内存槽与散热器鳍片之间也预留了足够的高度差进行内存插拔的操作,尽可能不影响可维护性。
由于EPYC 9005和EPYC 9004系列处理器都使用相同的插座,内存通道数量相同,R7725配置的是24条内存插槽,内存扩展能力与上一代平台相同,但速率大幅度提升。
架构变革为里
新一代服务器绝非只是提升了处理器功耗支持这么简单。
其实,戴尔正在推动服务器基础架构变革,新一代PowerEdge服务器平台正是新思路、新标准、新架构的产物。戴尔PowerEdge R7725是首批遵循了OCP的DC-MHS R1(Datacenter Modular Hardware System Revision 1.0)标准的服务器。
戴尔也是OCP MHS(模块化硬件系统)项目组的核心发起人之一。
传统上,服务器的主板通用性不高,服务器厂商需要为不同机型开发不同的主板,更不要说跨品牌适配了。
DC-MHS通过模块化的方式,标准化了硬件的外形规格和接口,提升了互操作性和研发效率,利于降低开发不同形态服务器、进行代际升级的成本。
在DC-MHS中,主板概念被HPM(Host Processor Modules,主机处理器模块)取代。基础的HPM负责提供处理器、内存、IO、供电接口。一款HPM可以适配多种机型,可以包括标准机架服务器、刀片服务器、边缘服务器等,可以是前IO或者后IO形态等,甚至有机会跨品牌使用。
为了给大家直观展现这种变化,我们以上一代戴尔PowerEdge服务器家族的R7625为例。譬如,R7625的风扇墙接口是集成在主板上的,而R7725的风扇板已经解耦出来。
风扇板与 HPM 分别迭代有哪些好处呢?
最典型的就是 1U 和 2U 机型使用的风扇尺寸不同,对应的风扇插座位置自然需要相应的调整。还有一种典型场景就是液冷机型,目前市场份额越来越高的液冷机型正在不断提升液冷覆盖比例,从而逐步取消风扇墙,在浸没式液冷机型更是如此。戴尔可以基于R7725的HPM推出液冷机型,取消风扇板可以简化布局,还有利于降低成本和故障率。
戴尔 PowerEdge R7725 TPM上的电源连接器符合M-PIC(Modular-Platform Infrastructure Connectivity,模块化-平台基础设施连接)规范,可用于连接电源分配板(PDB),适应柜内直流供电的场景。
符合M-PIC规范的电源连接器是带有边带信号的,大家可以留意图片中的那一排较小的插针,可以通过它们提供管理能力。每个电源连接器可以承受864W功率(每Pin最大6A电流),在R7725的热插拔电源接口附近有4个这种连接器,足够通过HPM为处理器、内存、PCIe卡、SSD等供电。
另外,R7725的HPM与风扇板、前窗驱动器高速背板的连接也是采用相同的M-PIC规范接口连接,不但可以为风扇或驱动器提供12V供电,还能承担温控、测速/调速等信号。
戴尔PowerEdge R7725的电源模块符合M-CRPS规范,通用性明显提升,用户可选的电源范围大大增加了。M-CRPS电源的尺寸小于R7625上使用的电源,但戴尔为R7725提供了最大3200W的钛金电源,能效更高。我们收到的R7725样机配备的是1500W钛金电源。
M-CRPS电源宽度缩减,还带来了一些额外的好处,使得戴尔 PowerEdge R7725后窗下半部分的扩展能力明显增强。
R7725后窗最下方一层可以安排三组OCP NIC外形兼容的模块,包括网卡、DC-SCM后IO板,以及新一代的BOSS-N1 DC-MHS控制器;下方略靠中间这一层可以安排2组全高卡Riser,而R7625在这个区域只有半高Riser。
戴尔 PowerEdge R7725的启动模块升级为BOSS-N1 DC-MHS,直接支持企业级NVMe SSD,性能较SATA SSD更高,可管理性也有所增强。更重要的是,新一代的启动模块的外形也与OCP网卡兼容,简化了后窗布局的复杂度。
性能大幅改进
我们的测试在戴尔 PowerEdge R7725上配置AMD EPYC 9755,参考平台R7625搭配EPYC 9754。两款处理器分别对应Zen5和Zen4C内核架构,均为128核心。
考虑到EPYC 9755的全核Boost频率可以达到4.1GHz,而EPYC 9754为3.1GHz,频率差距达到了1GHz,对测试结果的影响较大。为了突出处理器架构的差异,我们均关闭Boost,二者的基础频率分别为2.7GHz和2.25GHz。
系统内存均为1.5TB DDR5 RDIMM。值得一提的是,EPYC 9005系列在发布之初支持的内存速率是6000MT/s,直到近期才将这个规格变更为6400MT/s。相应的,戴尔PowerEdge R7725也需要更新今年4月发布的1.13版BIOS才能实现更高内存速率的支持。
我们首先利用 Stress-ng v0.18.06做压力测试验证,两台服务器的 CPU 频率都稳定在各自的基准频率,均为512线程。
从输出结果看,EPYC 9755单位时间内完成的操作数量相对9754提升了30%以上。
01、内存性能
我们使用 Memory Latency Checker v3.11b 进行内存性能的测试。
EPYC 9755的内存峰值带宽为1071GB/s,这个内存带宽达到了双路12通道6400MT/s理论带宽(1229GB/s)的约90%;相对9754实测值701GB/s提升了53%。
EPYC 9755相对9754的最大内存带宽提升幅度超过了两台PowerEdge服务器支持的内存速率差异:4800MT/s到6400MT/s的提升应该是33%。
我们认为最大内存带宽受到了CCD与IOD之间的带宽影响。两颗处理器的CCD与IOD互联的GMI(Global Memory Interconnect)链路数量差异很大:EPYC 9755配置了16颗CCD,使用了IOD的全部16组GMI3链路;而EPYC 9754使用了8颗CCD,只利用了8组GMI3链路,限制了与IOD的内存控制器之间的传输效率。
理论上CCD数量较少的EPYC可以使用GMI3-Wide模式,让一颗CCD使用两组GMI3链路,但AMD只在4颗或更少CCD的型号上启用这个模式,EPYC 9754不在此列。
在MLC的本地(CPU内)与远程(跨CPU)访问测试中,EPYC 9755的延迟略好于EPYC 9754,本地内存访问带宽优势明显。跨CPU访问的性能受CPU之间互联带宽的限制。两代处理器的远程访问带宽基本相同,这符合预期。
这是因为两代EPYC的IOD并没有更新,xGMI总线(Infinity Fabric)带宽没有出现质变。对于双路系统,AMD允许选择3组或4组xGMI链路互联。
选择前者可获得更多PCIe通道,通过将每颗CPU的1组xGMI链路配置为16通道PCIe 5.0,从而实现双路最多160通道PCIe 5.0。戴尔 PowerEdge R7725使用全部4组xGMI,可确保双路处理器发挥最佳性能。
随着负载变化,EPYC 9755在带宽逐步提升时的访问延迟变化较为稳定,在带宽达到峰值附近时延迟只增加到220纳秒左右,明显优于EPYC 9754的表现。
在逐核递增的内存带宽测试中,我们可以从图中很清晰地看到Zen5和Zen4C两种不同定位的CCD的规模差异。EPYC 9755每个台阶对应8核,与Zen5架构每CCD内提供8个核心吻合。EPYC 9754则为每CCD 16核心。
02、浮点单元改善尤其显著
Zen5的微架构相对Zen4有全面的提升。
Zen 5的前端提供更高的并行性,分支预测器速度更快、更准确,并为之匹配了更大的分支目标缓存。执行单元部分,整数运算的ALU(算术逻辑单元)与AGU(地址生成单元)、浮点运算流水线均增加了三分之一或更多。
缓存方面,Zen5的L1缓存容量增加了50%,L2缓存的带宽翻倍。
Zen5在浮点和向量单元的规模方面改进尤其显著。譬如Zen4架构采用256位数据路径,需要两个周期执行AVX-512指令。
而Zen5引入了512位数据路径,可以在一个周期内完成操作。我们会在浮点运算密集型的测试中感受到这种巨大的差异。
03、科学计算
Linkpack测试常用于考察双精度(FP64)浮点计算求解。我们使用AMD优化的软件包AMD Zen HPL(The High-Performance Linpack Benchmark),软件版本为2024_10_08。
在HPL中,(基于EPYC 9755的)PowerEdge R7725可以获得近9000GFlops的成绩,是(基于9754的)R7625的两倍以上,充分体现了浮点并行能力的改进。即使考虑两款CPU的频率差异,折算EPYC 9755同频率下的性能也是EPYC 9754的1.85倍。
我们在有限元软件OpenFOAM v2412运行 MotorBike 算例模拟摩托车周围流场。R7725的执行时间(Execution Time)不到90秒,比R7625 节省30%。与总时间(Clock Time)的差值也更小,说明在 IO、内存访问等环节也有所改善。
04、3D渲染
我们用V-Ray Benchmark考察CPU的3D渲染性能。PowerEdge R7725可以获得超过31万分,相对R7625提升近50%。
结 语
新一代的x86服务器处理器将功耗提升到了500W的水平,性能也取得明显的代际提升。戴尔PowerEdge最新一代的服务器很好地体现了新平台的特点:更高的性能、更强的扩展能力,以及面向未来的架构设计。
除了处理器性能,戴尔 PowerEdge R7725在许多细节上体现了“面向未来”:小如多达40块E3.S SSD的扩展能力、基于NVMe的启动盘,大到率先引入DC-MHS标准。
作为全球领先的服务器厂商,戴尔的服务器产品需要覆盖多样化的场景,除了相对传统的通用机架服务器,还有边缘侧、整机柜等形态,需要格外重视组件的灵活性、泛用性,这也是戴尔牵头发起DC-MHS的关键原因。
尤其是在机器学习、HPC等超高性能应用占比越来越高的背景下,服务器的传统形态出现了分化。熟悉液冷、GPU服务器、整机柜服务器等概念的用户,在看到戴尔 PowerEdge R7725的时候,对其代表的新架构、新标准会有更多的共鸣。