legacy-server-blog

2GPU: NVIDIA A100 Deep Learning Benchmarks

NVIDIA A100 PCIe 40GB の Deep Learning 学習での性能評価のため、HPCDIY-ERMGPU8R4S に2枚実装して、tensorflow で tf_cnn_benchmarks.py（ダウンロートはこちら）を実行してみました。 CPU: 2x AMD EPYC Rome 7302...

NVIDIA A100 PCIe 40GB の Deep Learning 学習での性能評価のため、HPCDIY-ERMGPU8R4S に2枚実装して、tensorflow で tf_cnn_benchmarks.py（ダウンロートはこちら）を実行してみました。

CPU: 2x AMD EPYC Rome 7302 DP/UP 16C/32T 3.0G 128M 155W, Memory: 512GB, SSD: NVMe U.2 1.92TB
NVIDIA Driver: 455.32.00
TensorFlow: nvcr.io/nvidia/tensorflow:20.10-tf1-py3

さすがにFlag Ship GPU だけあり、GeForce RTX 3090 に比較して、約1.6~2.2倍高速で、スケーラビリティも非常に高く、しかも低消費電力という結果になりました。
もっと高速学習が必要という場合は、HPCDIY-EPCGPU4R2S-NVL Computer（こちら）がおすすめです。

NVIDIA A100 Deep Learning Benchmarks: FP16 (XLA off)
カッコ内は 1 GPU に対しての倍率

	1 GPU img/sec	2 GPU img/sec	Batch Size
InceptionV4	685.91	1318.93 (1.92)	256
ResNet152	896.62	1693.55 (1.89)	256
NASNET	358.59	669.69 (1.87)	512
VGG16	868.5	1700.92 (1.96)	512
InceptionV3	1347.4	2650.91 (1.97)	512
ResNet50	2175.71	4179.29 (1.92)	512

実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --use_fp16=True

NVIDIA A100 Deep Learning Benchmarks: FP32 (XLA off)
カッコ内は 1 GPU に対しての倍率

	1 GPU img/sec	2 GPU img/sec	Batch Size
InceptionV4	288.59	562.92 (1.95)	128
ResNet152	360.29	689.98 (1.92)	128
NASNET	423.54	806.46 (1.90)	256
VGG16	482.12	959.78 (1.99)	256
InceptionV3	585.30	1155.18 (1.97)	256
ResNet50	847.77	1659.47 (1.96)	256

実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3

以上になります。

A100×4は必須ではなかった：DS4 q2をA100 80GB×2 NVLinkで動かす

DS4 q2-imatrix / ctx131K の短時間smokeと8K benchmarkが、A100 80GB×2 NVLink接続ペアで完走しました。今回の結果は q2・短時間検証・NVLink接続ペアという条件付きですが、少なくとも入口構成としてはA100×4必須ではない可能性を確認できました。

Local LLM controllerは未知の研究計算タスクを前進させられるか：LLZOとQuantum ESPRESSOで実践

Local LLM controller、Web検索、安全なCLI操作を組み合わせ、LLZOのLiイオン拡散評価に向けたQuantum ESPRESSO環境構築とbounded sanity runまでを実践しました。

RTX PRO 6000 Blackwell 2枚で科学計算LLMを検証：72B BF16、120B FP8、235B NVFP4を比較

RTX PRO 6000 Blackwell 2GPU評価機で、Qwen2.5-72B BF16/FP8/NVFP4、Nemotron3 120B FP8、Qwen3 235B NVFP4をQE/LAMMPS入力生成タスクで比較しました。

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか：Nemotronでmetadata-only preflightを検証

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか：Nemotronでmetadata-only preflightを検証これは性能ベンチマークではありません。A100x4上のローカルLLMで、Allegro / NeQUIPの学習設定YAMLをどこまで安全に作り、実行前に確認できるかを調べた機能検証です。結論から言うと、NemotronはAllegro / NeQUIPのtraining YAML候補を生成できました。既存SIF内で torch / nequip / allegro のimport、A100x4のCUDA可視

Read more

A100×4は必須ではなかった：DS4 q2をA100 80GB×2 NVLinkで動かす

Local LLM controllerは未知の研究計算タスクを前進させられるか：LLZOとQuantum ESPRESSOで実践

RTX PRO 6000 Blackwell 2枚で科学計算LLMを検証：72B BF16、120B FP8、235B NVFP4を比較

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか：Nemotronでmetadata-only preflightを検証