RTX4090を4枚でgpu burnした時の消費電力とSmart Power

消費電力が最大級のgpu、RTX4090を4枚でgpu burnすると消費電力はどのくらいになるのかIPMIから確認してみました。 使用したマシンはSupermicroのSYS-741GE-TNRT、CPU: 2 * Intel Xeon Silver 4110T TDP 150W、Memory : 16 *...

Share
RTX4090を4枚でgpu burnした時の消費電力とSmart Power

消費電力が最大級のgpu、RTX4090を4枚でgpu burnすると消費電力はどのくらいになるのかIPMIから確認してみました。

使用したマシンはSupermicroのSYS-741GE-TNRT、CPU: 2 * Intel Xeon Silver 4110T TDP 150W、Memory : 16 * 32GB DDR5-4800 ECC RDIMM、SSD: 960GB M.2 PCIe Gen4 x4 NVMe M.2 SSDです。

gpu_burnを実行してしばらくすると最初のscreenshotの状態で安定します。

nvidia-smiで見ると4枚とも約450Wの消費電力になっています。IPMIから見ると約2080W消費していることがわかります。

topで見るとcpuはほとんど使われていません。

stress-ng --cpu 0  -t 10hを実行してcpuを100%使用も加えてみます。

しばらくしてからIPMIで消費電力を確認すると約2160W消費していることがわかります。

このマシンには、200V入力時に最大出力1800Wの電源ユニットが2つ搭載されています。前世代までのSupermicroのマシンでは消費電力が1800Wを超えると電源がshutdownされていました。

どうして2160Wも消費しているのに、問題なく動作し続けているのでしょうか。その理由は、新搭載されたSmart Powerという機能にあります。上の図を見るとPowerの右隣にSmart Powerというタブがあるのがわかります。そこをクリックすると下図が現れ、Smart Powerを有効(デフォルトで有効になっています)にすると、何と3200Wまで供給可能になることがわかります。この機能が存在するおかげで、前世代までの4gpu搭載可能機種では不可能なrtx4090が4gpuでの安定動作が可能になっています。

Read more

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか:Nemotronでmetadata-only preflightを検証

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか:Nemotronでmetadata-only preflightを検証 これは性能ベンチマークではありません。A100x4上のローカルLLMで、Allegro / NeQUIPの学習設定YAMLをどこまで安全に作り、実行前に確認できるかを調べた機能検証です。 結論から言うと、NemotronはAllegro / NeQUIPのtraining YAML候補を生成できました。既存SIF内で torch / nequip / allegro のimport、A100x4のCUDA可視

By Kenetsu Hanabusa

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか:NemotronでQuantum ESPRESSOとLAMMPSを検証

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか:NemotronでQuantum ESPRESSOとLAMMPSを検証 この記事の位置づけ これは性能ベンチマークではなく、 ローカルLLMがHPC入力ファイルの生成、実行ログを使った修正、再実行まで支援できるか を確認した機能検証です。 H200 NVLやRTX PRO 6000 Blackwellへの一般化はせず、次回以降の別フェーズとして扱います。 結論 A100 80GB x4上で NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 をローカル配信し、Quantum

By Kenetsu Hanabusa