〜 イノベイティブな半導体、エレクトロニクス、エネルギー技術のソルーション 〜

Innovative Semiconductors, Electronics, & Energy Solutions

次世代AIデータセンターを支えるパワー半導体 (1)
〜 AIデータセンターとはどんなところ? 〜

電力を爆食いするAIサーバー

 NVIDIAのAIサーバーラックの消費電力の推移を表に示した。世代を経るごとに消費電力が増えてきて、2025年のBlackwell Ultraで1ラックあたり 150 kWになっている。さらに2027年リリース予定のRubin Ultraでは 1 MWに達するロードマップが描かれている。

year202020222024202520262027
GPU ArchitectureAmpereHopperBlackwellBlackwell
Ultra
RubinRubin
Ultra
Power10 kW40 kW120 kW150 kW200 kW+1000 kW+

Jared Huntington & Mike Tu, “800 VDC Architecture for Next-Generation AI Infrastructure”, https://nvdam.nvidia.com/assets/share/asset/zlg5snufeo , p.3. より

 このような消費電力の爆発的な増大の背景には、GPU製造の半導体技術ノードが進み集積度が高くなっていくこともあるが、それを上回るAIサーバー特有の事情がある。AIの巨大言語モデル (LLM) ではパラメータ数が多いほど性能が高いとされ(LLMのスケーリング則と呼ばれる)、汎用モデルGPT-5やGeminiでは1兆を越えるパラメータを持つと推定されている。その処理過程、特に学習過程ではパラメータ数に応じた巨大な行列演算が行われる。もちろん素朴に1兆×1兆の行列演算を行うわけではなく、行列の対角化を進めて小行列に分解して計算するのだが、それでも膨大な計算量になる。実際の行列演算では、多数のGPUを同期させてひとつのProcessorのように動かすほど演算速度が上がる。同一サーバーラック内にあるGPUは高速並列データリンクで結ばれていて高速で同期できる。一方ラックを跨ぐ演算は、高速光リンクを介してもデータ転送速度ががグッと落ちて時間がかかってしまう。そんなわけでラック内に可能な限り多数のGPUを詰め込み、ラック内で一度に計算できる行列サイズを大きくしたいのだ。その結果、ラックあたりの消費電力が増大して、 1 MWが求められているのである。

 さて、家電機器の消費電力がたかだか1 kWクラスなので、1 MWが実感としてピンとこない。身近にある MWクラスの電力消費機器を探してみた。まず電気自動車 (EV) が思い浮かぶ。日産リーフのカタログに出力 160 kWとあった。リーフ1台が今のBlackwell Ultraとほぼ同じ、2027年の1 MW/ラックのRubin Ultraになるとリーフ6台分になる。この電力が幅 50 cm高さ 2 m程のラック内で消費される。日頃目にするMWクラスをさらに探すと、鉄道関連にあった。新幹線のN700S系は16輌編成で 17 MW、平均すると1輌の消費電力がRubin Ultraと同程度になる。力持ちの電気機関車では、JR貨物の直流主力機EF210の出力が 3.4 MWある。Rubin Ultra 3ラック分。3台車6動軸の機関車なので、台車1台ごとにRubin Ultraが載っていることになる。台車だけをみると比較的コンパクト(もちろんサーバーラックよりもずっと大きい)と思われるが、台車の上に乗る車体の中はインバータ他のモータ駆動機器でいっぱいになっているので、都合機関車全体の1/3の体積でAIラックひとつと同じ電力を消費していることになる。1 MW/ラックがいかにべらぼうな電力密度であることがイメージいただけただろうか。

 

AIデータセンターの電力の流れ

 話をAIデータセンターに戻し、センターの中の電力の流れに注目してみよう。1 MWのラックが1000台並ぶ 1 GWのデータセンターを考えてみる。1 GWというと原子力発電所の原子炉1機の発電量に相当する膨大な電力である。この規模になると電力系統から特別高圧で受電することになる。国によって規格が異なるがおおよそ交流 10 kV ~ 35 kVである。この電力がサーバーラックに供給されて、最終的に直流 0.8 VでGPUで供給される。電力の流れで見ると、AIデータセンターとは特別高圧の交流大電力を、低圧 0.8 Vの直流に変換して数万個のGPUに分配することに特化した配電システムと言える。

 電流に着目すると、交流 20 kVを受電する1 GWのAIデータセンターの受電電流が 50 kA、これが何段かのステップを経て直流0.8 V, 1.25 GAの直流大電流に変換される。交流 20 kVのままホール内に引き込んでサーバーラックまで持ってくるのはかなり危険である。逆に、受電設備で一気に直流 0.8 Vに変換してホール内を大電流で分配するのは、非現実的な量の銅線が必要になる。現在のデータセンターでは、負荷の粒度に応じて段階的に電圧を落として、変換損失と伝導損失を最小にする電力分配アーキテクチャが採用されている。典型例ではホール内を交流 400 Vでラックまで配電し、ラックで直流 50 Vに変換して計算ノードに供給している。ラックあたりの消費電力が 1 MWに達する近未来のAIデータセンターではこの構成でも無理があり、新しい電力分配アーキテクチャが検討されている。そのひとつが電圧を上昇した 800 V直流アーキテクチャなのである。

 

電力供給のボトルネック 〜 ホール内 〜

 オームの法則を使って半定量的に電力分配アーキテクチャを考えてみよう。電力供給のボトルネックとなりうるのが、ホール内の配電とラック内の配電の2箇所である。まずホール内を考える。1 GWをホール内に配電するのに、現状の 400 V交流では 2.5 MAの全電流が必要になる。提案されている 800 V 直流では、電圧が倍になる分電流を半分の 1.25 MAに抑えられる。オームの法則により伝導損失は銅線の抵抗と電流の2乗の積になるので、同じ銅配線を使うなら800 V 直流にすれば伝導損失を1/4にすることができる1。また同じ伝導損失を許すなら、銅配線の重量を1/4で済ますことができる。昨今のAIブームで銅価格が高騰しているなか、銅使用量の削減は投資額の節約に大いに寄与する。

 

電力供給のボトルネック 〜 サーバーラック内 〜

 次にラック内を考える。現在のラック内では 400 V交流が 50 V 直流に変換されて銅線(バスバー)を介して各計算ノードへ電力が送られている。1 MWのラックになると、全電流が 20 kAに達する。この電流を現実的な導通損失で送るには 200 kg の銅でできたバスバーが必要と見積もられている。次世代技術でホールからラック内に 800 V 直流をそのまま持ち込んで800 V 直流バスバーで各計算ノードへ送るようにすると、全電流は既存技術の1/16の 1.25 kAで済む。したがって 800 V 直流バスバーの断面積を1/256にしても 50 V 直流バスバーと同じ導通損失になる。狭いラック内に 800 V 直流バスバーを張り巡らすのはそれなりに技術的難度が高いが、必要な銅は 800 g で済む。このように、電力供給の一番のボトルネックはラック内にあり、ラック内直流バスバーの供給電圧を高くすることが、電力を爆食いするAIサーバーラックの喫緊の課題であることがわかる。

 

消費電力の変動が激しいAIデータセンター

 連載(1)の最後に、AIデータセンターならではの特徴的な電力消費のパターンに触れておこう。従来のデータサーバーでは、Webページのアクセスであったりクラウド上のファイル操作であったりと関連の薄い多数のタスクが並列で処理され、サーバー全体の消費電力が統計的に平準化されている。一方、AIデータセンターでは、LLMの学習期間には数千個のGPUが同期して強力に行列演算を行う。その後のデータやり取り期間の消費電力は学習期間の30%程度になる。https://nvdam.nvidia.com/assets/share/asset/zlg5snufeo , p.6, Fig.4に負荷変動の実波形がある。消費電力の大幅な変動が 10 ms から 10秒オーダーのさまざまな時間スケールで発生している。

 1 GWのAIデータセンターでは消費電力変動が 700 MW(火力発電所1基分)に達し、何も対策を打たなければ接続している電力系統を不安定化する懸念がある。また、長い時間スケールで見た平均消費電力は 1 GW よりもかなり小さくなるので、1 GWのピーク電力に合わせた電力分配設備を準備するのも非効率だ。もっとも有効な対策は、蓄電装置を設置して消費電力を平準化することである。高負荷時には系統からの電力と併せて蓄電装置から放電してピーク電力を供給し、低負荷時には系統から蓄電装置に電力を蓄電して次のピークに備える。対応する負荷変動の大きさと時間スケールに合わせて、ホールからラック内部に至る電力分配アーキテクチャのさまざまな段階でバッテリーやスーパーキャパシター、キャパシタなどの蓄電デバイスを配置することが必須になる。

 以上、近頃話題のAIデータセンターとはどのようなもので、その電力供給にはどんな課題があるのかを述べた。(2)では、課題を解決して1 GW級のAIデータセンターを実現する技術がどのようなものなのかをみていく(続く)。

  1. 厳密には、3相で送る 400 V交流には中性点を含めて4本の銅線があり、行き・帰り・接地の銅線3本の800 V 直流と同じでない。また電圧が違うのでケーブルの絶縁も変わってくる。さらには交流では表皮効果で同じ銅線でも直流よりも抵抗が高くなる、など色々考慮すべきことがあるが、ざっくりと電圧を上げて電流を小さくする効果が一番大きい。 ↩︎

ページ : 1 2

カテゴリー:

コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA


PAGE TOP