博客 -- 氮化镓技术如何击败硅技术

GaN技术杂谈

Search in All Title Contents
为 AI 工厂供电:EPC GaN 解决方案如何为 NVIDIA MGX 架构提供强大动力

为 AI 工厂供电:EPC GaN 解决方案如何为 NVIDIA MGX 架构提供强大动力

5月 28, 2026

数字世界的发展速度比以往任何时候都快。我们正处于一场新的 AI 工业革命之中,数据中心正在转变为 AI 工厂,即高密度、专门构建的设施,用于大规模创造智能。人工智能不再只是一场软件革命,它正迅速成为一场基础设施革命。这种计算范式的转变非常深刻:人类不再是唯一与 AI 互动的对象;相反,越来越复杂的代理式 AI 模型正在与其他 AI 代理对话,协调任务、自主推理,并处理极长的 token 序列。

AI 推理和代理式工作流如今备受关注,正在彻底改变工作负载特性。计算正在从人类与 AI 的互动快速演进为 AI 与 AI 的协作,智能代理不断进行通信、做出决策,并自主优化流程。这种演进给基础设施带来了前所未有的压力,尤其是对于基于混合专家(MoE)架构的先进推理模型而言,token 会在 GPU、机架甚至分布式数据中心之间动态路由,对延迟极为敏感。

最终结果是出现了前所未有的计算需求。四大关键扩展定律——预训练、后训练、测试时扩展和代理式扩展——正在重塑下一代计算基础设施的设计。挑战不再只是原始计算性能,而是在满足延迟、热管理和能源效率等严格限制的同时,实现可扩展性能。

为了了解 AI 工厂在实践中如何构建,NVIDIA MGX™ 为可扩展且灵活的加速计算基础设施提供了模块化基础。MGX 解决了基础设施模块化和更快部署的问题,但另一个更严峻的瓶颈正在形成:电源传输。随着 AI 系统变得更复杂、更高密度,电源转换效率对于维持性能和效率至关重要。在这里,关键推动力是宜普电源转换公司(EPC)的氮化镓(eGaN®)技术,它提供了为下一代 AI 基础设施供电所需的高效率、高功率密度和热性能。

 NVIDIA MGX:面向加速计算的模块化基础设施

NVIDIA MGX 无需针对每一代新加速器进行完整硬件重新设计,而是提供开放式模块化参考架构,涵盖单节点服务器、机架级系统、Pod 级部署以及完整的 AI 数据中心基础设施。

OEM 和 ODM 无需为每个特定使用案例构建新平台,而是可以利用标准化架构框架,支持 CPU、GPU、网络和数据处理单元(DPU)的多种不同组合。

这种模块化方法显著降低了非经常性工程(NRE)成本,并将上市时间缩短数月。通用硬件“DNA”使合作伙伴能够在多代加速计算平台中重复利用设计元素,提高投资回报率,并实现快速系统定制。MGX 针对基于 x86 和 Arm 的服务器架构以及 PCIe 等行业标准进行了优化,以实现广泛兼容性。

MGX 的突出之处在于其灵活性。据 NVIDIA 称,该架构支持 100 多种标准系统配置,使可扩展设计能够从企业服务器扩展到大规模 AI 基础设施,而无需完整重新设计。然而,随着 AI 计算密度持续提升,仅有模块化已不再足够。挑战越来越转向如何高效供电,以支持快速增长的热需求和计算需求。

面向代理式 AI 的第三代 MGX 机架架构

在机架层面,与 Vera Rubin 平台同步推出的第三代 NVIDIA MGX 架构专为满足代理式 AI 系统快速出现的需求而设计。这类工作负载需要高吞吐量推理、低延迟互连、密集 CPU 沙箱,以及用于键值缓存扩展和持续推理工作流的大容量内存。

第三代 MGX 机架在机械设计、配电和热管理方面整合了多项工程创新。完全模块化的印刷电路板(PCB)式机架取消了传统线缆、软管和系统风扇,从而实现无缆、无风扇的计算环境。NVLink 交换托盘可以在不中断机架功能的情况下更换,从而提高大规模部署中的弹性和可维护性。

另一个关键创新是功率优化。动态功率调度可使系统根据任意时刻的工作负载需求,在 CPU、GPU 和 NVLink 子系统之间智能分配可用功率,而机架级电容器有助于抑制 AI 推理和训练工作负载中常见的突发功率尖峰。该系统还采用 100% 液冷,可在高达 45 摄氏度的温水入口温度下运行,从而降低电源使用效率(PUE),并将更多能源用于计算,而不是冷却开销。

向 800 VDC 电源架构的战略转变

NVIDIA AI 基础设施战略的一个关键要素是采用 800 VDC 电源架构。随着机架功率密度提高,下一代加速计算需求正在挑战传统交流供电系统的经济可行性。NVIDIA 的 800 VDC 方案减少了电源转换级数,并将直流配电推进到更靠近机架的位置,以提高效率并简化数据中心基础设施。

重要的是,该架构既可面向未来扩展,又向后兼容。新的 AI 工厂可以采用端到端 800 VDC 配电以实现最高能源效率,而现有设施则可以部署带有 MGX 兼容电源机架的混合架构,同时不牺牲在土地、电力基础设施或建筑外壳方面的既有投资。该架构还支持分布式电池备份系统,从而提高韧性并支持更高密度的计算部署。

随着 GPU 功率需求从 Blackwell 架构的 1,000 W 级别扩展到未来 Feynman 级 GPU 预计的 6,000 W,传统 48 VDC 配电正达到其物理极限。以 48 V 向单个 Vera Rubin 服务器板输送 12 kW 功率需要 250 A 电流,这对于标准连接器来说并不现实,并会产生巨大的铜损。

NVIDIA 800 VDC 电源架构通过将典型服务器板的电流降低到约 15 A 来解决这一“功率墙”,使相同铜横截面积可传输的功率增加 157%。这种转变使 GPU 附近最关键区域的组件面积减少 26%。为了实现这种高压配电,目前已出现三种主要架构方案,每种方案都利用了宜普电源转换公司(EPC)的 GaN 技术:

  • 800 VDC 至 48 VDC该方法使用紧凑型 800 V 至 48 V 转换器,通常位于配电板(PDB)上或服务器本地。它允许服务器板继续使用传统 48 V 硬件,从而简化向更高功率水平的过渡。  
  • 800 VDC 至 12 VDC通过在服务器板上将 800 V 直接转换为 12 V,与较低电压总线相比,配电损耗可降低四倍。该架构通常采用 8 级 ISOP 配置,使用 100 V 或 150 V GaN 器件,在“NVLink 半径”内实现高密度。
  • 800 VDC 至 6 VDC这代表了一种面向处理器所需低于 1 V 电压的高效率单级转换路径。虽然它会增加板上配电损耗,但可最大限度减少转换级数。该配置受益于 EPC 最新低压 GaN 晶体管,这些器件专为大电流负载点(POL)转换而设计。

800 VDC 至 48 VDC

下一代 AI 电源传输中最务实的方法之一,是通过紧凑型隔离式转换器将 800 VDC 降压至 48 VDC,该转换器通常位于配电板(PDB)上或服务器机架本地。该架构支持现有 48 V 服务器生态系统,使超大规模数据中心运营商和 OEM 能够利用成熟基础设施,同时扩展到大幅更高的机架功率密度。

从系统角度来看,48 V 中间总线在效率、电流处理能力和架构灵活性之间取得了有效平衡。这使设计人员能够利用现有服务器板拓扑和熟悉的 48 V 配电层,同时尽量减少对现有硬件生态系统的干扰。

但在半导体层面,该级需要具备高开关频率和高功率密度的器件,同时不能产生过高热损耗。这正是 150V GaN FET(例如 EPC2376)能够在 ISOP 的初级和次级侧提供基准解决方案的原因。与硅 MOSFET 替代方案相比,这些器件可显著降低开关损耗,几乎没有反向恢复电荷,并具有更高功率密度,从而实现更小的磁性元件、更高工作频率和更紧凑的转换器实现。

800 VDC 至 12 VDC

另一种更积极的架构方法是在服务器板上将 800 VDC 直接转换为 12 VDC,从而显著减少中间转换步骤数量并提高整体系统效率。最直接的优势体现在配电方面:在更高电压下运行可大幅降低电流,因此导通损耗约为较低电压总线架构的四分之一。

这种拓扑对 AI 加速器尤其具有吸引力,因为其电源传输必须在严格的物理限制下完成,尤其是在所谓“NVLink 半径”内,靠近 GPU 对于最大限度减少寄生损耗并保持瞬态性能至关重要。

为了实现所需的功率密度和热性能,EPC 推荐采用八级输入串联输出并联(ISOP)架构。该配置可分担多级电压应力,使初级侧能够使用 150 V GaN 器件,次级侧使用 40 V 器件,例如 EPC2366,这些器件相比更高电压器件天生具有更佳开关特性和更低导通损耗。除了优化半导体效率外,ISOP 方法还可简化变压器实现,改善相位交错,减少输出电容,并在系统中更均匀地分布热耗散——这些都是日益受功率约束的 AI 服务器环境中的关键优势。

800 VDC 至 6 VDC

在性能导向最强的一端,从 800 VDC 直接转换到 6 VDC 代表了一种为现代 AI 处理器供电的超高效率路径,而这些处理器最终需要低于 1 V 的供电轨。通过在单个隔离级中更接近最终工作电压,该架构可最大限度降低转换复杂性并减少中间电源级数量,从而可能提高端到端效率。

然而,其取舍在于板上配电。较低总线电压会提高电流水平,导致 PCB 走线和互连上的导通损耗增加。因此,该架构需要极高效率的本地电源转换才能保持可行性。

这正是下一代低压 GaN 晶体管变得至关重要的地方。EPC 最新的 25 V 和 15 V GaN FET,即 EPC2379 和 EPC 2378,分别针对大电流负载点(POL)转换进行了优化,可提供超低导通电阻、零反向恢复电荷,以及频率扩展至 MHz 范围的卓越开关性能。这些特性使紧凑型大电流 POL 稳压器能够在保持高功率密度和快速瞬态响应的同时,高效提供 GPU 和 AI 加速器所需的超低电压。

EPC GaN:ISOP 转换器的技术骨干

隔离级必须非常高效且轻薄,以弥合 800 VDC 配电与计算级电压之间的差距。而明显胜出的方案是输入串联输出并联(ISOP)拓扑。通过将多个模块化 LLC 谐振转换器的输入串联堆叠,800 V 应力由多个级分担,使系统能够使用低压 GaN FET,而不是高压碳化硅(SiC)或老旧硅 MOSFET。

为什么采用 GaN 的 8 级 ISOP 是基准选择:在 ISOP 配置中使用八个模块,相比传统单级设计具有多项技术优势:

  • 卓越的半导体性能:低压 GaN FET 具有更优的品质因数(FoM)。例如,EPC2381(第 7 代)100 V 器件的 RDS(on) 仅为 0.8 mΩ,而类似封装中最佳硅替代器件为 6.5 mΩ。
  • 热分布和电气分布:将转换分散到八个级,有助于在 PCB 上实现更好的热分布,并简化变压器设计。
  • 通过交错降低纹波:多个模块以交错相位运行,可显著降低输出电流纹波,同时提高纹波频率,从而减少对大型笨重输出电容器的需求。
  • 极高密度:EPC 的表面贴装 GaN 器件可实现极薄的转换器,通常仅 8 mm,使其兼容 Rubin 级系统所需的先进液冷冷板。

这一方案的实际实现是 EPC91123,这是一款基于 ISOP 的 6 kW DC-DC 转换器,可将 800 VDC 转换为 12.5 VDC。该设计峰值效率达到 98.3%,满载效率达到 97%,同时占用的电路板面积小于 5,000 mm2。实验室测试确认,该架构可在自然电压平衡下处理高达 500 A 的输入和输出电流,无需复杂控制环路(图 1 和图 2)。

图 1:EPC91123 评估板

 

图 2:ISOP 转换器框图

重新构想中间总线转换

EPC 针对将 48 V 电源轨转换为 12 V 或 6 V 输出的中间总线级转换器,对竞争方案进行了评估,重点关注 LLC 谐振转换器和混合开关电容(HSC)拓扑。

EPC 更倾向于用于 48 V 至 12 V 转换的 Type I LLC 架构,因为与 HSC 架构相比,它具有变压器更简单、绕组匝数更少的优势。该论点基于实际磁性元件实现:Type I LLC 拓扑需要更少的初级绕组和更少的变比,因此复杂性更低,同时还能保持效率。对于功率密度不断提高的 AI 系统而言,这类简化非常重要,因为磁性损耗和变压器尺寸正日益成为瓶颈。

与此同时,低压转换级也正转向 25V 和 15V GaN 器件,以提高下游 POL 转换器的效率和密度。

负载点转换:最后的效率之战

电源传输的最后一级——为 GPU 和 AI 加速器供电的 POL 稳压器——可以说是 GaN 展现最大优势的环节。

EPC 展示了 EPC2371,这是一款针对大电流 POL 应用优化的 25 V GaN 晶体管。该器件具有:

  • 0.65 mΩ 典型 RDS(on)
  • 88 A 连续电流能力
  • 412 A 脉冲电流处理能力
  • 17 nC 栅极电荷
  • 0 nC 反向恢复电荷
  • 紧凑的 2.6 mm × 3.3 mm 占位面积。

在 700 kHz 开关频率和 0.8 V 输出条件下的效率测试表明,在有意义的负载范围内,即使在受控气流条件下不使用散热器,转换效率也可超过 90%。这些结果显示,即使在现代 AI 负载所需的激进开关频率下,GaN 也能够保持高效率。

对于超低电压应用,EPC 的 15 V GaN FET EPC2370 进一步提升性能,具有 0.28 mΩ 的极低电阻,同时仍支持高电流密度。即使在高于 2 MHz 的开关频率下,其效率仍达到基准水平,这支持了 GaN 能够同时实现更高开关频率和更小无源元件占位面积的观点。

这为 AI 服务器设计人员提供了显著减少 PCB 面积、改善瞬态响应并降低冷却开销的机会(图 3)。

图 3:EPC GaN 在每一电压等级均成为基准

结论

随着 AI 工厂持续扩展,EPC 已经在展望采用第 8 代技术的未来。这些将于 2027 年底推出的下一代器件,将支持 3 -5 MHz 高密度负载点(POL)解决方案,进一步缩小高压配电与 GPU 之间的差距。通过将 NVIDIA MGX 的模块化灵活性与 EPC GaN 解决方案无可匹敌的功率密度相结合,行业终于能够交付下一代 AI 所需的高能效、兆瓦级机架

参考资料

GaN Power Devices for Efficient Power Conversion,第四版 - 作者: Alex Lidow、 Michael de Rooij、 John Glaser、Alejandro Pozo Arribas、Shengke Zhang、Marco Palma、David Reusch、Johan Strydom。

M. Di Paolo Emilio,The Architectural Imperative of 800 VDC in Next-Generation AI Factories - Data Centre Digest

M. Di Paolo Emilio,Powering the AI Factory: The Role of 800 VDC Distribution and ISOP Converters in Next-Generation Data Centers – Data Centre Digest

Huntington, J.; Tu, M.,“800 VDC Architecture for Next-Generation AI Infrastructure,”
NVIDIA 白皮书,2025。

Tags: Data Centers

GaN 社区

GaN葡萄酒休闲酒廊

GaN Talk 播客

向氮化镓专家提问

Ask a GaN Expert a Question

对设计实例有疑问吗?
向氮化镓专家提问

GaN Talk支持论坛

GaN 产品

应用笔记集