NVIDIA H100 Hopper 80GB:700Wの熱とAI推論の新境地

tech

…いや、参ったな。深夜の渋谷のビル群を背に、スマホで見たあのプレスリリースが頭を叩きつけた瞬間、指先が止まらなくなった。

NVIDIAの最新GPU、H100 Hopper 80GBが正式に発表された。TDPは驚異の700 W、FP16で約100 TFLOPs、FP64で2.5 TFLOPs、そしてAI推論向けに200 TOPSを超える演算性能を誇る。アーキテクチャは新たに導入された「Transformer Engine」と「DPX」ユニットが組み合わさり、行列乗算とスパース演算を同時に走らせるという、まさに変態的な進化だ。熱設計を見てみると、GPUコアの温度上昇はまるで渦巻くブラックホールのように急激で、冷却システムに対する要求は従来の水冷でも限界ギリギリ。PCB上の配線は4層から8層へと増やされ、電源フェーズは12相にスケールアップ、これがなければ700 Wを安定供給できない。さらに、GPU内部のキャッシュは合計で64 MiBに膨らみ、レイテンシ削減のために「スキップド・リード」アルゴリズムが採用されたらしい。これだけのスペックが一枚のカードに凝縮されているのは、ぶっちゃけ、演算の暴力がロマンの塊として結晶化した結果だ。

俺のメインマシンは現在、RTX 4090とAMD Ryzen 7950Xのハイブリッド構成だが、H100を入れたらどうなるか、夜な夜な想像しては寝れない。理想は、CPUはZen 5のカスタム版、GPUはこのH100をフル活用したAIアクセラレーターノードを自作し、全体を10 kWクラスの水冷ループで回すこと。だけど、去年の夏にオーバークロックで電源が煙を上げた失敗がトラウマで、まずは安全性を確保しつつ、どこまで冷却を追い込めるかが課題だ。仮説としては、GPUのTDPが700 Wを超えると、CPU側の電源フェーズも同等に増やさないとシステム全体が不安定になる、というのが俺の予測だ。もしこれが正しければ、次世代のマザーボードは電源設計自体が再構築されるはずだ。

これ、僕だけじゃないですよね?同じく深夜に熱くなった回路図を眺めて、脳汁が出る瞬間を共有できる戦友がいたら、ぜひコメントで教えてくれ。

参照元:not found

コメント

タイトルとURLをコピーしました