EPC技術文章

為AI工廠賦能:EPC GaN解決方案如何助力NVIDIA MGX架構實現效能飛躍

2026年6月1日

為AI工廠賦能:EPC GaN解決方案如何助力NVIDIA MGX架構實現效能飛躍

為AI工廠賦能:EPC GaN解決方案如何助力NVIDIA MGX架構實現效能飛躍

數位世界正進入一場新的AI工業革命,資料中心正在轉型為能夠大規模產生智慧的AI工廠。AI不再只是一個軟體議題;它也正迅速成為一個基礎設施議題。現代工作負載正從簡單的人與AI互動,轉向AI與AI協作,在這種模式下,代理式模型能夠協調任務、自主推理,並在超長token序列中運作。這給基礎設施帶來了新的壓力:系統不僅需要更強的原始運算能力,還必須滿足對延遲、熱管理和能源效率的嚴格要求。為了了解AI工廠如何在實務中建構,NVIDIA MGX™為可擴充、靈活的加速運算基礎設施提供了模組化基礎。雖然MGX解決了基礎設施模組化和更快部署的問題,但另一個更嚴重的瓶頸正在形成:電源傳輸。隨著AI系統變得更複雜、更密集,電源轉換效率對於維持效能和效率至關重要。一項關鍵使能技術是Efficient Power Conversion(EPC)的氮化鎵(eGaN®)解決方案,它可提供下一代AI基礎設施所需的效率、功率密度和熱性能。

NVIDIA MGX:面向加速運算的模組化基礎設施

NVIDIA MGX無需為每一代新加速器進行完整硬體重新設計,而是提供了一個開放式模組化參考架構,涵蓋單節點伺服器、機架級系統、Pod級部署以及完整AI資料中心基礎設施。

OEM和ODM無需針對每個具體用例建構新平台,而是可以利用標準化架構框架,支援CPU、GPU、網路和資料處理單元(DPU)的多種不同組合。  

這種模組化方法顯著降低了非經常性工程(NRE)成本,並將產品上市時間縮短數月。通用硬體「DNA」使合作夥伴能夠在多代加速運算平台中重複使用設計元素,提高投資報酬率,並實現快速系統客製化。MGX針對基於x86和Arm的伺服器架構以及PCIe等產業標準進行了最佳化,以實現廣泛相容性。

NVIDIA MGX脫穎而出的是其靈活性。據NVIDIA稱,該架構支援超過100種標準系統配置,使可擴充設計能夠從企業伺服器擴展到大規模AI基礎設施,而無需完整重新設計。然而,隨著AI運算密度持續提升,僅靠模組化已不再足夠。挑戰正越來越多地轉向如何高效供電,以支援快速成長的散熱和運算需求。

面向代理式AI的第三代MGX機架架構

在機架層面,第三代NVIDIA MGX架構——與NVIDIA Vera Rubin平台一同推出——專為因應代理式AI系統迅速出現的需求而設計。這些工作負載需要高吞吐量推理、低延遲互連、密集CPU沙箱化,以及用於鍵值快取擴充和連續推理工作流程的大容量記憶體。

第三代NVIDIA MGX機架在機械設計、配電和熱管理方面融入了多項工程進展。基於完全模組化印刷電路板(PCB)的機架取消了傳統纜線、軟管和系統風扇,從而實現無纜線、無風扇的運算環境。NVIDIA NVLink交換托盤可在不中斷機架功能的情況下更換,從而提升大規模部署中的彈性和可維護性。

另一個關鍵創新是功率最佳化。動態功率調配使系統能夠根據任意時刻的工作負載需求,在CPU、GPU和NVLink子系統之間智慧分配可用功率;機架級電容則有助於抑制AI推理和訓練工作負載中常見的突發功率尖峰。該系統還採用100%液冷,可在最高45攝氏度的溫水入口溫度下運作,從而降低電源使用效率(PUE),並將更多能量釋放給運算,而不是用於冷卻開銷。

向800 VDC電源架構的戰略轉型

NVIDIA AI基礎設施策略的一個關鍵要素是採用800 VDC電源架構。隨著機架功率密度提高,下一代加速運算需求正在挑戰傳統交流供電系統的經濟可行性。NVIDIA的800 VDC方案減少了電源轉換級數,並將直流配電移至更靠近機架的位置,以提高效率並簡化資料中心基礎設施。

重要的是,該架構既具備向前擴充能力,也具備向後相容性。新的AI工廠可以採用端到端800 VDC 配電,以實現最高能源效率;而現有設施則可部署配備MGX相容電源機架的混合架構,而不犧牲在土地、電力基礎設施或建築外殼方面的既有投資。該架構還支援分散式電池備援系統,從而提高彈性並實現更高密度的運算部署。

隨著GPU功率需求從NVIDIA Blackwell架構約1,000 W級別,擴展到未來Feynman級GPU預計的6,000 W,傳統48 VDC 配電正在達到其物理極限。在48 V下向單個NVIDIA Vera Rubin伺服器板提供12 kW功率,需要250 A電流,這對於標準連接器而言並不現實,並會造成巨大的銅損。

為了實現這種高壓配電,已經出現了三種主要架構選項,每種都利用Efficient Power Conversion(EPC)GaN技術:

  • 800 VDC至48 VDC:該方法使用緊湊型800 V至48 V轉換器,通常位於電源分配板(PDB)上或伺服器本地。它允許在伺服器板上繼續使用傳統48 V硬體,從而緩解向更高功率水準過渡的難度。 
  • 800 VDC至12 VDC:透過在伺服器板上將800 V直接轉換為12 V,與較低電壓匯流排相比,配電損耗可降低四倍。該架構通常採用8級ISOP配置,並使用100 V或150 V GaN元件,以在「NVLink半徑」內實現高密度。
  • 800 VDC至6 VDC:這代表了一條高效率路徑,可透過單級轉換達到處理器所需的亞1V電平。雖然它會增加板級配電損耗,但能最大限度減少轉換級數。該配置受益於EPC最新的低壓GaN電晶體,這些元件專為大電流負載點(POL)轉換而設計。

800 VDC至48 VDC

下一代AI電源傳輸中最務實的方法之一,是透過緊湊型隔離轉換器將800 VDC降壓至48 VDC,該轉換器通常位於電源分配板(PDB)上或伺服器機架內部本地位置。該架構支援現有48 V伺服器生態系統,使超大規模資料中心營運商和OEM能夠利用成熟基礎設施,同時擴展到顯著更高的機架功率密度。

從系統角度看,48 V中間匯流排是在效率、電流處理能力和架構靈活性之間取得的有效平衡。這使設計人員能夠充分利用現有伺服器板拓撲和熟悉的48 V配電層,同時對現有硬體生態系統造成最小干擾。

但在半導體層面,該級需要具備高開關頻率、高功率密度且不會產生過多熱損耗的元件。這正是150V GaN FET(如EPC2376)能夠在ISOP的一次側和二次側提供基準解決方案的地方。與矽MOSFET替代方案相比,這些元件提供顯著更低的開關損耗、可忽略的反向恢復電荷以及更優越的功率密度,從而實現更小的磁性元件、更高的工作頻率和更緊湊的轉換器實現。

800 VDC 至12 VDC

另一種更積極的架構方法,是在伺服器板上將800 VDC直接轉換為12 VDC,從而顯著減少中間轉換步驟數量並提高整體系統效率。最直接的好處體現在配電方面:在更高電壓下運作會大幅降低電流,因此導通損耗約比低壓匯流排架構低四倍。

這種拓撲對於AI加速器尤其有吸引力,因為其電源傳輸必須在嚴格的物理限制下完成,特別是在所謂「NVLink半徑」內,靠近GPU對於最大限度降低寄生損耗並保持暫態性能至關重要。

為實現所需的功率密度和熱性能,EPC建議採用八級輸入串聯輸出並聯(ISOP)架構。該配置可緩解多個級的電壓應力,使一次側能夠使用150 V GaN元件,二次側能夠使用40 V元件,例如EPC2366;這些元件相較於更高電壓元件,本身展現出更優的開關特性和更低的導通損耗。除了最佳化半導體效率外,ISOP方法還能實現更簡單的變壓器設計、更好的相位交錯、更少的輸出電容,以及整個系統中更均勻的熱耗散分布——這些都是AI伺服器環境中至關重要的優勢,而該環境正日益受到功率限制。

800 VDC至6 VDC

在最偏重效能的一端,從800 VDC直接轉換為6 VDC代表了一條為現代AI處理器供電的超高效路徑,而這些處理器最終需要亞1 V供電軌。透過在單個隔離級中更接近最終工作電壓,該架構最大限度降低了轉換複雜性並減少了中間電源級數量,從而有可能提高端到端效率。

然而,權衡點在於板上配電。較低匯流排電壓會提高電流等級,導致PCB走線和互連上的導通損耗增加。因此,該架構需要極高效率的本地電源轉換才能保持可行性。

這正是下一代低壓GaN電晶體變得至關重要的地方。EPC最新的25 V和15 V GaN FET,即EPC2379和EPC 2378,分別針對大電流負載點(POL)轉換進行了最佳化,提供超低導通電阻、零反向恢復電荷,以及在MHz頻率範圍內的出色開關性能。這些特性使緊湊型大電流POL穩壓器能夠高效提供GPU和AI加速器所需的超低電壓,同時保持高功率密度和快速暫態響應。

EPC GaN:ISOP轉換器的技術骨幹

隔離級必須非常高效且輕薄,才能彌合800 VDC配電與運算級電壓之間的差距。透過將多個模組化LLC諧振轉換器的輸入串聯堆疊,800 V應力被多個級分擔,從而使系統能夠使用低壓GaN FET。

為什麼採用GaN的8級ISOP是基準選擇:在ISOP配置中使用八個模組,相較於傳統單級設計具備多項技術優勢:

  • 更優的半導體性能:較低電壓GaN FET展現出更好的品質因數(FoM)。例如,EPC2381(第7代)100 V元件的RDS(on)僅為0.8 mΩ。
  • 熱和電氣分布:將轉換分散到八個級中,可在PCB上實現更好的熱分布,並簡化變壓器設計。
  • 透過交錯降低紋波:多個模組以交錯相位運作,可顯著降低輸出電流紋波,同時提高紋波頻率,從而減少對大型笨重輸出電容的需求。
  • 極高密度:EPC的表面貼裝GaN元件可實現極薄轉換器——通常只有8 mm——使其相容Rubin級系統所需的先進液冷冷板。

這一方案的一個實際實現是EPC91123,這是一款基於ISOP的6 kW DCDC轉換器,可將800 VDC轉換為12.5 VDC。該設計實現了98.3%的峰值效率和97%的滿載效率,同時占用不到5,000 mm2的板面積。實驗室測試證實,該架構可處理高達500 A的輸入和輸出電流,並具有自然電壓均衡能力,無需複雜控制迴路(圖1和圖2)。

圖1:EPC91123評估板

圖2:ISOP轉換器方塊圖

重新構想中間匯流排轉換

EPC正在評估在中間匯流排層面將48 V電源軌轉換為12 V或6 V輸出的競爭性轉換器方案,重點關注LLC諧振轉換器和混合開關電容(HSC)拓撲。

EPC更傾向於在48 V至12 V轉換中採用Type I LLC架構,因為與HSC架構相比,該架構具有變壓器更簡單、繞組匝數更少的優勢。這一論點基於實際磁性元件實現:Type I LLC拓撲需要更少的一次繞組、更少的匝比,因此複雜性更低,同時仍能保持效率。對於功率密度日益提高的AI系統而言,這類降低非常重要,因為磁損耗和變壓器尺寸正日益成為瓶頸。

與此同時,下游POL轉換器中的低壓轉換級也正在轉向25V和15V GaN元件,以實現更高效率和密度。

負載點轉換:最終效率之戰

電源傳輸的最後一級——為GPU和AI加速器供電的POL穩壓器——可以說是GaN展現其最大優勢的地方。

EPC展示了EPC2371,這是一款針對大電流POL應用最佳化的25 V GaN電晶體。該元件具有:

  • 0.65 mΩ典型RDS(on)
  • 88 A連續電流能力
  • 412 A脈衝電流處理能力
  • 17 nC閘極電荷
  • 0 nC反向恢復電荷
  • 緊湊的2.6 mm × 3.3 mm占板面積。

在700 kHz開關頻率和0.8 V輸出條件下的效率測試表明,即使在受控氣流條件下不使用散熱器,在有意義的負載範圍內也能實現超過90%的轉換效率。這些結果表明,即使在現代AI負載所需的激進開關頻率下,GaN仍能保持高效率。

對於超低壓應用,EPC的15 V GaN FET EPC2370進一步提升性能,其電阻極低,僅為0.28 mΩ,同時仍支援高電流密度。即使在高於2 MHz的開關頻率下,其效率仍達到基準水準,這支持了GaN能夠同時支援更高開關頻率和更小被動元件占板面積的觀點。

這為AI伺服器設計人員提供了顯著縮小PCB面積、改善暫態響應並降低冷卻開銷的機會。

結論

隨著AI工廠持續擴展,EPC已經著眼於採用第8代技術的未來。這些下一代元件預計將在2027年底推出,將支援3 -5 MHz高密度負載點(POL)解決方案,進一步縮小高壓配電與GPU之間的差距。透過將NVIDIA MGX的模組化靈活性與EPC GaN解決方案相結合,產業最終能夠交付下一代AI所需的高能效、兆瓦級機架。

參考資料

GaN Power Devices for Efficient Power Conversion,第四版 - 作者: Alex Lidow、 Michael de Rooij、 John Glaser、Alejandro Pozo Arribas、Shengke Zhang、Marco Palma、David Reusch、Johan Strydom。

M. Di Paolo Emilio,The Architectural Imperative of 800 VDC in Next-Generation AI Factories - Data Centre Digest

M. Di Paolo Emilio,Powering the AI Factory: The Role of 800 VDC Distribution and ISOP Converters in Next-Generation Data Centers – Data Centre Digest

Huntington, J.; Tu, M.,「800 VDC Architecture for Next-Generation AI Infrastructure,」
NVIDIA白皮書,2025。