为AI工厂赋能：EPC GaN解决方案如何助力NVIDIA MGX架构实现性能飞跃

Posted 2026年6月1日

为AI工厂赋能：EPC GaN解决方案如何助力NVIDIA MGX架构实现性能飞跃

数字世界正在进入一场新的AI工业革命，数据中心正在转型为能够大规模生成智能的AI工厂。AI不再只是一个软件议题；它也正迅速成为一个基础设施议题。现代工作负载正从简单的人与AI交互，转向AI与AI协作，在这种模式下，智能体模型能够协调任务、自主推理，并在超长token序列中运行。这给基础设施带来了新的压力：系统不仅需要更强的原始计算能力，还必须满足对延迟、热管理和能源效率的严格要求。为了理解AI工厂如何在实践中构建，NVIDIA MGX™为可扩展、灵活的加速计算基础设施提供了模块化基础。虽然MGX解决了基础设施模块化和更快部署的问题，但另一个更严重的瓶颈正在形成：电源传输。随着AI系统变得更复杂、更密集，电源转换效率对于维持性能和效率至关重要。一项关键使能技术是Efficient Power Conversion（EPC）的氮化镓（eGaN®）解决方案，它可提供下一代AI基础设施所需的效率、功率密度和热性能。

NVIDIA MGX：面向加速计算的模块化基础设施

NVIDIA MGX无需为每一代新加速器进行完整硬件重新设计，而是提供了一个开放式模块化参考架构，涵盖单节点服务器、机架级系统、Pod级部署以及完整AI数据中心基础设施。

OEM和ODM无需针对每个具体用例构建新平台，而是可以利用标准化架构框架，支持CPU、GPU、网络和数据处理单元（DPU）的多种不同组合。

这种模块化方法显著降低了非经常性工程（NRE）成本，并将产品上市时间缩短数月。通用硬件“DNA”使合作伙伴能够在多代加速计算平台中重复使用设计元素，提高投资回报率，并实现快速系统定制。MGX针对基于x86和Arm的服务器架构以及PCIe等行业标准进行了优化，以实现广泛兼容性。

让NVIDIA MGX脱颖而出的是其灵活性。据NVIDIA称，该架构支持超过100种标准系统配置，使可扩展设计能够从企业服务器扩展到大规模AI基础设施，而无需完整重新设计。然而，随着AI计算密度持续提升，仅靠模块化已不再足够。挑战正越来越多地转向如何高效供电，以支持快速增长的散热和计算需求。

面向智能体AI的第三代MGX机架架构

在机架层面，第三代NVIDIA MGX架构——与NVIDIA Vera Rubin平台一同推出——专为应对智能体AI系统迅速出现的需求而设计。这些工作负载需要高吞吐量推理、低延迟互连、密集CPU沙箱化，以及用于键值缓存扩展和连续推理工作流的大容量内存。

第三代NVIDIA MGX机架在机械设计、配电和热管理方面融入了多项工程进展。基于完全模块化印刷电路板（PCB）的机架取消了传统电缆、软管和系统风扇，从而实现无电缆、无风扇的计算环境。NVIDIA NVLink交换托盘可在不中断机架功能的情况下更换，从而提升大规模部署中的弹性和可维护性。

另一个关键创新是功率优化。动态功率调配使系统能够根据任意时刻的工作负载需求，在CPU、GPU和NVLink子系统之间智能分配可用功率；机架级电容则有助于抑制AI推理和训练工作负载中常见的突发功率尖峰。该系统还采用100%液冷，可在最高45摄氏度的温水入口温度下运行，从而降低电源使用效率（PUE），并将更多能量释放给计算，而不是用于冷却开销。

向800 VDC电源架构的战略转型

NVIDIA AI基础设施战略的一个关键要素是采用800 VDC电源架构。随着机架功率密度提高，下一代加速计算需求正在挑战传统交流供电系统的经济可行性。NVIDIA的800 VDC方案减少了电源转换级数，并将直流配电移至更靠近机架的位置，以提高效率并简化数据中心基础设施。

重要的是，该架构既具备向前扩展能力，也具备向后兼容性。新的AI工厂可以采用端到端800 VDC 配电，以实现最高能源效率；而现有设施则可部署配备MGX兼容电源机架的混合架构，而不牺牲在土地、电力基础设施或建筑外壳方面的既有投资。该架构还支持分布式电池备份系统，从而提高弹性并实现更高密度的计算部署。

随着GPU功率需求从NVIDIA Blackwell架构约1,000 W级别，扩展到未来Feynman级GPU预计的6,000 W，传统48 VDC 配电正在达到其物理极限。在48 V下向单个NVIDIA Vera Rubin服务器板提供12 kW功率，需要250 A电流，这对于标准连接器而言并不现实，并会造成巨大的铜损。

为了实现这种高压配电，已经出现了三种主要架构选项，每种都利用Efficient Power Conversion（EPC）GaN技术：

800 VDC至48 VDC：该方法使用紧凑型800 V至48 V转换器，通常位于电源分配板（PDB）上或服务器本地。它允许在服务器板上继续使用传统48 V硬件，从而缓解向更高功率水平过渡的难度。
800 VDC至12 VDC：通过在服务器板上将800 V直接转换为12 V，与较低电压总线相比，配电损耗可降低四倍。该架构通常采用8级ISOP配置，并使用100 V或150 V GaN器件，以在“NVLink半径”内实现高密度。
800 VDC至6 VDC：这代表了一条高效率路径，可通过单级转换达到处理器所需的亚1V电平。虽然它会增加板级配电损耗，但能最大限度减少转换级数。该配置受益于EPC最新的低压GaN晶体管，这些器件专为大电流负载点（POL）转换而设计。

800 VDC至48 VDC

下一代AI电源传输中最务实的方法之一，是通过紧凑型隔离转换器将800 VDC降压至48 VDC，该转换器通常位于电源分配板（PDB）上或服务器机架内部本地位置。该架构支持现有48 V服务器生态系统，使超大规模数据中心运营商和OEM能够利用成熟基础设施，同时扩展到显著更高的机架功率密度。

从系统角度看，48 V中间总线是在效率、电流处理能力和架构灵活性之间取得的有效平衡。这使设计人员能够充分利用现有服务器板拓扑和熟悉的48 V配电层，同时对现有硬件生态系统造成最小干扰。

但在半导体层面，该级需要具备高开关频率、高功率密度且不会产生过多热损耗的器件。这正是150V GaN FET（如EPC2376）能够在ISOP的一次侧和二次侧提供基准解决方案的地方。与硅MOSFET替代方案相比，这些器件提供显著更低的开关损耗、可忽略的反向恢复电荷以及更优越的功率密度，从而实现更小的磁性元件、更高的工作频率和更紧凑的转换器实现。

800 VDC 至12 VDC

另一种更激进的架构方法，是在服务器板上将800 VDC直接转换为12 VDC，从而显著减少中间转换步骤数量并提高整体系统效率。最直接的好处体现在配电方面：在更高电压下运行会大幅降低电流，因此导通损耗约比低压总线架构低四倍。

这种拓扑对于AI加速器尤其有吸引力，因为其电源传输必须在严格的物理约束下完成，特别是在所谓“NVLink半径”内，靠近GPU对于最大限度降低寄生损耗并保持瞬态性能至关重要。

为实现所需的功率密度和热性能，EPC建议采用八级输入串联输出并联（ISOP）架构。该配置可缓解多个级的电压应力，使一次侧能够使用150 V GaN器件，二次侧能够使用40 V器件，例如EPC2366；这些器件相较于更高电压器件，本身展现出更优的开关特性和更低的导通损耗。除了优化半导体效率外，ISOP方法还能实现更简单的变压器设计、更好的相位交错、更少的输出电容，以及整个系统中更均匀的热耗散分布——这些都是AI服务器环境中至关重要的优势，而该环境正日益受到功率限制。

800 VDC至6 VDC

在最偏重性能的一端，从800 VDC直接转换为6 VDC代表了一条为现代AI处理器供电的超高效路径，而这些处理器最终需要亚1 V供电轨。通过在单个隔离级中更接近最终工作电压，该架构最大限度降低了转换复杂性并减少了中间电源级数量，从而有可能提高端到端效率。

然而，权衡点在于板上配电。较低总线电压会提高电流等级，导致PCB走线和互连上的导通损耗增加。因此，该架构需要极高效率的本地电源转换才能保持可行性。

这正是下一代低压GaN晶体管变得至关重要的地方。EPC最新的25 V和15 V GaN FET，即EPC2379和EPC 2378，分别针对大电流负载点（POL）转换进行了优化，提供超低导通电阻、零反向恢复电荷，以及在MHz频率范围内的出色开关性能。这些特性使紧凑型大电流POL稳压器能够高效提供GPU和AI加速器所需的超低电压，同时保持高功率密度和快速瞬态响应。

EPC GaN：ISOP转换器的技术骨干

隔离级必须非常高效且轻薄，才能弥合800 VDC配电与计算级电压之间的差距。通过将多个模块化LLC谐振转换器的输入串联堆叠，800 V应力被多个级分担，从而使系统能够使用低压GaN FET。

为什么采用GaN的8级ISOP是基准选择：在ISOP配置中使用八个模块，相较于传统单级设计具备多项技术优势：

更优的半导体性能：较低电压GaN FET展现出更好的品质因数（FoM）。例如，EPC2381（第7代）100 V器件的R_DS(on)仅为0.8 mΩ。
热和电气分布：将转换分散到八个级中，可在PCB上实现更好的热分布，并简化变压器设计。
通过交错降低纹波：多个模块以交错相位运行，可显著降低输出电流纹波，同时提高纹波频率，从而减少对大型笨重输出电容的需求。
极高密度：EPC的表面贴装GaN器件可实现极薄转换器——通常只有8 mm——使其兼容Rubin级系统所需的先进液冷冷板。

这一方案的一个实际实现是EPC91123，这是一款基于ISOP的6 kW DCDC转换器，可将800 VDC转换为12.5 VDC。该设计实现了98.3%的峰值效率和97%的满载效率，同时占用不到5,000 mm²的板面积。实验室测试证实，该架构可处理高达500 A的输入和输出电流，并具有自然电压均衡能力，无需复杂控制环路（图1和图2）。

图1：EPC91123评估板

图2：ISOP转换器框图

重新构想中间总线转换

EPC正在评估在中间总线层面将48 V电源轨转换为12 V或6 V输出的竞争性转换器方案，重点关注LLC谐振转换器和混合开关电容（HSC）拓扑。

EPC更倾向于在48 V至12 V转换中采用Type I LLC架构，因为与HSC架构相比，该架构具有变压器更简单、绕组匝数更少的优势。这一论点基于实际磁性元件实现：Type I LLC拓扑需要更少的一次绕组、更少的匝比，因此复杂性更低，同时仍能保持效率。对于功率密度日益提高的AI系统而言，这类降低非常重要，因为磁损耗和变压器尺寸正日益成为瓶颈。

与此同时，下游POL转换器中的低压转换级也正在转向25V和15V GaN器件，以实现更高效率和密度。

负载点转换：最终效率之战

电源传输的最后一级——为GPU和AI加速器供电的POL稳压器——可以说是GaN展现其最大优势的地方。

EPC展示了EPC2371，这是一款针对大电流POL应用优化的25 V GaN晶体管。该器件具有：

0.65 mΩ典型R_DS(on)
88 A连续电流能力
412 A脉冲电流处理能力
17 nC栅极电荷
0 nC反向恢复电荷
紧凑的2.6 mm × 3.3 mm占板面积。

在700 kHz开关频率和0.8 V输出条件下的效率测试表明，即使在受控气流条件下不使用散热器，在有意义的负载范围内也能实现超过90%的转换效率。这些结果表明，即使在现代AI负载所需的激进开关频率下，GaN仍能保持高效率。

对于超低压应用，EPC的15 V GaN FET EPC2370进一步提升性能，其电阻极低，仅为0.28 mΩ，同时仍支持高电流密度。即使在高于2 MHz的开关频率下，其效率仍达到基准水平，这支持了GaN能够同时支持更高开关频率和更小无源元件占板面积的观点。

这为AI服务器设计人员提供了显著缩小PCB面积、改善瞬态响应并降低冷却开销的机会。

结论

随着AI工厂持续扩展，EPC已经着眼于采用第8代技术的未来。这些下一代器件预计将在2027年底推出，将支持3 -5 MHz高密度负载点（POL）解决方案，进一步缩小高压配电与GPU之间的差距。通过将NVIDIA MGX的模块化灵活性与EPC GaN解决方案相结合，行业最终能够交付下一代AI所需的高能效、兆瓦级机架。

参考资料

GaN Power Devices for Efficient Power Conversion，第四版 - 作者： Alex Lidow、 Michael de Rooij、 John Glaser、Alejandro Pozo Arribas、Shengke Zhang、Marco Palma、David Reusch、Johan Strydom。

M. Di Paolo Emilio，The Architectural Imperative of 800 VDC in Next-Generation AI Factories - Data Centre Digest

M. Di Paolo Emilio，Powering the AI Factory: The Role of 800 VDC Distribution and ISOP Converters in Next-Generation Data Centers – Data Centre Digest

Huntington, J.; Tu, M.，“800 VDC Architecture for Next-Generation AI Infrastructure，”
NVIDIA白皮书，2025。

新闻