新闻

客户可以在我们的网页 注册 ,定期收取最新消息包括全新产品发布、应用文章及更多其它资讯。如果你错过了已发布的资料,你可浏览以下的文档。

为AI工厂赋能:EPC GaN解决方案如何助力NVIDIA MGX架构实现性能飞跃

为AI工厂赋能:EPC GaN解决方案如何助力NVIDIA MGX架构实现性能飞跃

为AI工厂赋能:EPC GaN解决方案如何助力NVIDIA MGX架构实现性能飞跃

数字世界正在进入一场新的AI工业革命,数据中心正在转型为能够大规模生成智能的AI工厂。AI不再只是一个软件议题;它也正迅速成为一个基础设施议题。现代工作负载正从简单的人与AI交互,转向AI与AI协作,在这种模式下,智能体模型能够协调任务、自主推理,并在超长token序列中运行。这给基础设施带来了新的压力:系统不仅需要更强的原始计算能力,还必须满足对延迟、热管理和能源效率的严格要求。为了理解AI工厂如何在实践中构建,NVIDIA MGX™为可扩展、灵活的加速计算基础设施提供了模块化基础。虽然MGX解决了基础设施模块化和更快部署的问题,但另一个更严重的瓶颈正在形成:电源传输。随着AI系统变得更复杂、更密集,电源转换效率对于维持性能和效率至关重要。一项关键使能技术是Efficient Power Conversion(EPC)的氮化镓(eGaN®)解决方案,它可提供下一代AI基础设施所需的效率、功率密度和热性能。

NVIDIA MGX:面向加速计算的模块化基础设施

NVIDIA MGX无需为每一代新加速器进行完整硬件重新设计,而是提供了一个开放式模块化参考架构,涵盖单节点服务器、机架级系统、Pod级部署以及完整AI数据中心基础设施。

OEM和ODM无需针对每个具体用例构建新平台,而是可以利用标准化架构框架,支持CPU、GPU、网络和数据处理单元(DPU)的多种不同组合。  

这种模块化方法显著降低了非经常性工程(NRE)成本,并将产品上市时间缩短数月。通用硬件“DNA”使合作伙伴能够在多代加速计算平台中重复使用设计元素,提高投资回报率,并实现快速系统定制。MGX针对基于x86和Arm的服务器架构以及PCIe等行业标准进行了优化,以实现广泛兼容性。

NVIDIA MGX脱颖而出的是其灵活性。据NVIDIA称,该架构支持超过100种标准系统配置,使可扩展设计能够从企业服务器扩展到大规模AI基础设施,而无需完整重新设计。然而,随着AI计算密度持续提升,仅靠模块化已不再足够。挑战正越来越多地转向如何高效供电,以支持快速增长的散热和计算需求。

面向智能体AI的第三代MGX机架架构

在机架层面,第三代NVIDIA MGX架构——与NVIDIA Vera Rubin平台一同推出——专为应对智能体AI系统迅速出现的需求而设计。这些工作负载需要高吞吐量推理、低延迟互连、密集CPU沙箱化,以及用于键值缓存扩展和连续推理工作流的大容量内存。

第三代NVIDIA MGX机架在机械设计、配电和热管理方面融入了多项工程进展。基于完全模块化印刷电路板(PCB)的机架取消了传统电缆、软管和系统风扇,从而实现无电缆、无风扇的计算环境。NVIDIA NVLink交换托盘可在不中断机架功能的情况下更换,从而提升大规模部署中的弹性和可维护性。

另一个关键创新是功率优化。动态功率调配使系统能够根据任意时刻的工作负载需求,在CPU、GPU和NVLink子系统之间智能分配可用功率;机架级电容则有助于抑制AI推理和训练工作负载中常见的突发功率尖峰。该系统还采用100%液冷,可在最高45摄氏度的温水入口温度下运行,从而降低电源使用效率(PUE),并将更多能量释放给计算,而不是用于冷却开销。

向800 VDC电源架构的战略转型

NVIDIA AI基础设施战略的一个关键要素是采用800 VDC电源架构。随着机架功率密度提高,下一代加速计算需求正在挑战传统交流供电系统的经济可行性。NVIDIA的800 VDC方案减少了电源转换级数,并将直流配电移至更靠近机架的位置,以提高效率并简化数据中心基础设施。

重要的是,该架构既具备向前扩展能力,也具备向后兼容性。新的AI工厂可以采用端到端800 VDC 配电,以实现最高能源效率;而现有设施则可部署配备MGX兼容电源机架的混合架构,而不牺牲在土地、电力基础设施或建筑外壳方面的既有投资。该架构还支持分布式电池备份系统,从而提高弹性并实现更高密度的计算部署。

随着GPU功率需求从NVIDIA Blackwell架构约1,000 W级别,扩展到未来Feynman级GPU预计的6,000 W,传统48 VDC 配电正在达到其物理极限。在48 V下向单个NVIDIA Vera Rubin服务器板提供12 kW功率,需要250 A电流,这对于标准连接器而言并不现实,并会造成巨大的铜损。

为了实现这种高压配电,已经出现了三种主要架构选项,每种都利用Efficient Power Conversion(EPC)GaN技术:

  • 800 VDC至48 VDC:该方法使用紧凑型800 V至48 V转换器,通常位于电源分配板(PDB)上或服务器本地。它允许在服务器板上继续使用传统48 V硬件,从而缓解向更高功率水平过渡的难度。 
  • 800 VDC至12 VDC:通过在服务器板上将800 V直接转换为12 V,与较低电压总线相比,配电损耗可降低四倍。该架构通常采用8级ISOP配置,并使用100 V或150 V GaN器件,以在“NVLink半径”内实现高密度。
  • 800 VDC至6 VDC:这代表了一条高效率路径,可通过单级转换达到处理器所需的亚1V电平。虽然它会增加板级配电损耗,但能最大限度减少转换级数。该配置受益于EPC最新的低压GaN晶体管,这些器件专为大电流负载点(POL)转换而设计。

800 VDC至48 VDC

下一代AI电源传输中最务实的方法之一,是通过紧凑型隔离转换器将800 VDC降压至48 VDC,该转换器通常位于电源分配板(PDB)上或服务器机架内部本地位置。该架构支持现有48 V服务器生态系统,使超大规模数据中心运营商和OEM能够利用成熟基础设施,同时扩展到显著更高的机架功率密度。

从系统角度看,48 V中间总线是在效率、电流处理能力和架构灵活性之间取得的有效平衡。这使设计人员能够充分利用现有服务器板拓扑和熟悉的48 V配电层,同时对现有硬件生态系统造成最小干扰。

但在半导体层面,该级需要具备高开关频率、高功率密度且不会产生过多热损耗的器件。这正是150V GaN FET(如EPC2376)能够在ISOP的一次侧和二次侧提供基准解决方案的地方。与硅MOSFET替代方案相比,这些器件提供显著更低的开关损耗、可忽略的反向恢复电荷以及更优越的功率密度,从而实现更小的磁性元件、更高的工作频率和更紧凑的转换器实现。

800 VDC 至12 VDC

另一种更激进的架构方法,是在服务器板上将800 VDC直接转换为12 VDC,从而显著减少中间转换步骤数量并提高整体系统效率。最直接的好处体现在配电方面:在更高电压下运行会大幅降低电流,因此导通损耗约比低压总线架构低四倍。

这种拓扑对于AI加速器尤其有吸引力,因为其电源传输必须在严格的物理约束下完成,特别是在所谓“NVLink半径”内,靠近GPU对于最大限度降低寄生损耗并保持瞬态性能至关重要。

为实现所需的功率密度和热性能,EPC建议采用八级输入串联输出并联(ISOP)架构。该配置可缓解多个级的电压应力,使一次侧能够使用150 V GaN器件,二次侧能够使用40 V器件,例如EPC2366;这些器件相较于更高电压器件,本身展现出更优的开关特性和更低的导通损耗。除了优化半导体效率外,ISOP方法还能实现更简单的变压器设计、更好的相位交错、更少的输出电容,以及整个系统中更均匀的热耗散分布——这些都是AI服务器环境中至关重要的优势,而该环境正日益受到功率限制。

800 VDC至6 VDC

在最偏重性能的一端,从800 VDC直接转换为6 VDC代表了一条为现代AI处理器供电的超高效路径,而这些处理器最终需要亚1 V供电轨。通过在单个隔离级中更接近最终工作电压,该架构最大限度降低了转换复杂性并减少了中间电源级数量,从而有可能提高端到端效率。

然而,权衡点在于板上配电。较低总线电压会提高电流等级,导致PCB走线和互连上的导通损耗增加。因此,该架构需要极高效率的本地电源转换才能保持可行性。

这正是下一代低压GaN晶体管变得至关重要的地方。EPC最新的25 V和15 V GaN FET,即EPC2379和EPC 2378,分别针对大电流负载点(POL)转换进行了优化,提供超低导通电阻、零反向恢复电荷,以及在MHz频率范围内的出色开关性能。这些特性使紧凑型大电流POL稳压器能够高效提供GPU和AI加速器所需的超低电压,同时保持高功率密度和快速瞬态响应。

EPC GaN:ISOP转换器的技术骨干

隔离级必须非常高效且轻薄,才能弥合800 VDC配电与计算级电压之间的差距。通过将多个模块化LLC谐振转换器的输入串联堆叠,800 V应力被多个级分担,从而使系统能够使用低压GaN FET。

为什么采用GaN的8级ISOP是基准选择:在ISOP配置中使用八个模块,相较于传统单级设计具备多项技术优势:

  • 更优的半导体性能:较低电压GaN FET展现出更好的品质因数(FoM)。例如,EPC2381(第7代)100 V器件的RDS(on)仅为0.8 mΩ。
  • 热和电气分布:将转换分散到八个级中,可在PCB上实现更好的热分布,并简化变压器设计。
  • 通过交错降低纹波:多个模块以交错相位运行,可显著降低输出电流纹波,同时提高纹波频率,从而减少对大型笨重输出电容的需求。
  • 极高密度:EPC的表面贴装GaN器件可实现极薄转换器——通常只有8 mm——使其兼容Rubin级系统所需的先进液冷冷板。

这一方案的一个实际实现是EPC91123,这是一款基于ISOP的6 kW DCDC转换器,可将800 VDC转换为12.5 VDC。该设计实现了98.3%的峰值效率和97%的满载效率,同时占用不到5,000 mm2的板面积。实验室测试证实,该架构可处理高达500 A的输入和输出电流,并具有自然电压均衡能力,无需复杂控制环路(图1和图2)。

图1:EPC91123评估板

图2:ISOP转换器框图

重新构想中间总线转换

EPC正在评估在中间总线层面将48 V电源轨转换为12 V或6 V输出的竞争性转换器方案,重点关注LLC谐振转换器和混合开关电容(HSC)拓扑。

EPC更倾向于在48 V至12 V转换中采用Type I LLC架构,因为与HSC架构相比,该架构具有变压器更简单、绕组匝数更少的优势。这一论点基于实际磁性元件实现:Type I LLC拓扑需要更少的一次绕组、更少的匝比,因此复杂性更低,同时仍能保持效率。对于功率密度日益提高的AI系统而言,这类降低非常重要,因为磁损耗和变压器尺寸正日益成为瓶颈。

与此同时,下游POL转换器中的低压转换级也正在转向25V和15V GaN器件,以实现更高效率和密度。

负载点转换:最终效率之战

电源传输的最后一级——为GPU和AI加速器供电的POL稳压器——可以说是GaN展现其最大优势的地方。

EPC展示了EPC2371,这是一款针对大电流POL应用优化的25 V GaN晶体管。该器件具有:

  • 0.65 mΩ典型RDS(on)
  • 88 A连续电流能力
  • 412 A脉冲电流处理能力
  • 17 nC栅极电荷
  • 0 nC反向恢复电荷
  • 紧凑的2.6 mm × 3.3 mm占板面积。

在700 kHz开关频率和0.8 V输出条件下的效率测试表明,即使在受控气流条件下不使用散热器,在有意义的负载范围内也能实现超过90%的转换效率。这些结果表明,即使在现代AI负载所需的激进开关频率下,GaN仍能保持高效率。

对于超低压应用,EPC的15 V GaN FET EPC2370进一步提升性能,其电阻极低,仅为0.28 mΩ,同时仍支持高电流密度。即使在高于2 MHz的开关频率下,其效率仍达到基准水平,这支持了GaN能够同时支持更高开关频率和更小无源元件占板面积的观点。

这为AI服务器设计人员提供了显著缩小PCB面积、改善瞬态响应并降低冷却开销的机会。

结论

随着AI工厂持续扩展,EPC已经着眼于采用第8代技术的未来。这些下一代器件预计将在2027年底推出,将支持3 -5 MHz高密度负载点(POL)解决方案,进一步缩小高压配电与GPU之间的差距。通过将NVIDIA MGX的模块化灵活性与EPC GaN解决方案相结合,行业最终能够交付下一代AI所需的高能效、兆瓦级机架。

参考资料

GaN Power Devices for Efficient Power Conversion,第四版 - 作者: Alex Lidow、 Michael de Rooij、 John Glaser、Alejandro Pozo Arribas、Shengke Zhang、Marco Palma、David Reusch、Johan Strydom。

M. Di Paolo Emilio,The Architectural Imperative of 800 VDC in Next-Generation AI Factories - Data Centre Digest

M. Di Paolo Emilio,Powering the AI Factory: The Role of 800 VDC Distribution and ISOP Converters in Next-Generation Data Centers – Data Centre Digest

Huntington, J.; Tu, M.,“800 VDC Architecture for Next-Generation AI Infrastructure,”
NVIDIA白皮书,2025。