legacy-server-blog

4GPU: GeForce RTX 3090 Deep Learning Benchmarks

GeForce RTX 3090 の Deep Learning 学習での性能評価のため、HPCDIY-ERM1GPU4TS に４枚実装して、tensorflow で tf_cnn_benchmarks.py（ダウンロートはこちら）を実行してみました。 TensorFlow...

GeForce RTX 3090 の Deep Learning 学習での性能評価のため、HPCDIY-ERM1GPU4TS に４枚実装して、tensorflow で tf_cnn_benchmarks.py（ダウンロートはこちら）を実行してみました。
TensorFlow を新しくして再計測したらもっと高速になりました。その記事はこちら。

CPU: AMD EPYC Rome 7252 DP/UP 8C/16T 3.1G 64M 120W, Memory: 128GB, SSD: NVMe M.2 512GB
NVIDIA Driver: 455.32.00
TensorFlow: nvcr.io/nvidia/tensorflow:20.09-tf1-py3

結論から言いますと、非常に高性能で、少なくとも 4GPU までは、並列性能も高い、という結果になりました。

GeForce RTX 3090 Deep Learning Benchmarks: FP16 (XLA off)
カッコ内は 1 GPU に対しての倍率

	1 GPU img/sec	2 GPU img/sec	4 GPU img/sec	Batch Size
InceptionV4	322.12	626.50 (1.94)	1227.68 (3.81)	256
ResNet152	402.15	783.91 (1.95)	1496.47 (3.72)	256
NASNET	200.57	386.94 (1.93)	741.23 (3.70)	256
VGG16	400.92	747.73 (1.87)	1232.62 (3.07)	256
InceptionV3	614.74	1184.35 (1.93)	2334.61 (3.80)	256
ResNet50	846.85	1675.00 (1.98)	3238.07 (3.82)	512

実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --variable_update=parameter_server --use_fp16=True

GeForce RTX 3090 Deep Learning Benchmarks: FP32 (XLA off)
カッコ内は 1 GPU に対しての倍率

	1 GPU img/sec	2 GPU img/sec	4 GPU img/sec	Batch Size
InceptionV4	147.20	289.92 (1.97)	560.12 (3.81)	128
ResNet152	178.81	346.59 (1.94)	660.36 (3.69)	128
NASNET	199.12	381.87 (1.92)	742.94 (3.73)	256
VGG16	307.01	579.90 (1.89)	941.13 (3.07)	256
InceptionV3	301.10	587.51 (1.95)	1124.88 (3.74)	128
ResNet50	454.01	892.08 (1.96)	1741.00 (3.83)	256

実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --variable_update=parameter_server

大雑把な比較としてExxact Corporation のこちらのページのGeForce 2080 ti のデータと比べてみました。

GeForce RTX 2080 ti との比較: FP16 (XLA off) の場合、(RTX3090 img/sec) / (RTX 2080 ti img/sec)

	1 GPU	2 GPU	4 GPU
InceptionV4	2.14	2.53	2.47
ResNet152	1.92	2.25	2.78
NASNET	1.17	1.25	1.28
VGG16	1.46	1.78	2.10
InceptionV3	1.98	2.08	2.11
ResNet50	1.62	1.75	1.76

GeForce RTX 2080 ti との比較: FP32 (XLA off) の場合、(RTX3090 img/sec) / (RTX 2080 ti img/sec)

	1 GPU	2 GPU	4 GPU
InceptionV4	1.31	1.59	2.10
ResNet152	1.98	2.18	2.22
NASNET	1.12	1.54	2.35
VGG16	2.02	2.20	2.05
InceptionV3	1.54	1.65	1.62
ResNet50	1.51	1.62	1.73

さらに、Exxact Corporation のこちらのページの Quadro RTX 8000 のデータと比べてみました。

Quadro RTX 8000 との比較: FP16 (RTX8000 は Large Batch size) 、(RTX3090 img/sec) / (Quadro RTX 8000 img/sec)

	1 GPU	2 GPU	4 GPU
InceptionV4	1.58	1.63	1.61
ResNet152	1.41	1.48	1.41
NASNET	1.02	1.05	1.02
VGG16	1.45	1.41	1.25
InceptionV3	1.57	1.57	1.59
ResNet50	1.40	1.41	1.38

Quadro RTX 8000 との比較: FP32 (RTX8000 は Large Batch size) 、(RTX3090 img/sec) / (Quadro RTX 8000 img/sec)

	1 GPU	2 GPU	4 GPU
InceptionV4	1.40	1.44	1.62
ResNet152	1.30	1.39	1.46
NASNET	1.06	1.10	1.21
VGG16	1.84	1.83	1.53
InceptionV3	1.39	1.42	1.57
ResNet50	1.41	1.43	1.43

以上になります。

яндекс

Local LLM controllerは未知の研究計算タスクを前進させられるか：LLZOとQuantum ESPRESSOで実践

Local LLM controller、Web検索、安全なCLI操作を組み合わせ、LLZOのLiイオン拡散評価に向けたQuantum ESPRESSO環境構築とbounded sanity runまでを実践しました。

RTX PRO 6000 Blackwell 2枚で科学計算LLMを検証：72B BF16、120B FP8、235B NVFP4を比較

RTX PRO 6000 Blackwell 2GPU評価機で、Qwen2.5-72B BF16/FP8/NVFP4、Nemotron3 120B FP8、Qwen3 235B NVFP4をQE/LAMMPS入力生成タスクで比較しました。

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか：Nemotronでmetadata-only preflightを検証

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか：Nemotronでmetadata-only preflightを検証これは性能ベンチマークではありません。A100x4上のローカルLLMで、Allegro / NeQUIPの学習設定YAMLをどこまで安全に作り、実行前に確認できるかを調べた機能検証です。結論から言うと、NemotronはAllegro / NeQUIPのtraining YAML候補を生成できました。既存SIF内で torch / nequip / allegro のimport、A100x4のCUDA可視

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか：NemotronでQuantum ESPRESSOとLAMMPSを検証

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか：NemotronでQuantum ESPRESSOとLAMMPSを検証この記事の位置づけこれは性能ベンチマークではなく、ローカルLLMがHPC入力ファイルの生成、実行ログを使った修正、再実行まで支援できるかを確認した機能検証です。 H200 NVLやRTX PRO 6000 Blackwellへの一般化はせず、次回以降の別フェーズとして扱います。結論 A100 80GB x4上で NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 をローカル配信し、Quantum

Read more

Local LLM controllerは未知の研究計算タスクを前進させられるか：LLZOとQuantum ESPRESSOで実践

RTX PRO 6000 Blackwell 2枚で科学計算LLMを検証：72B BF16、120B FP8、235B NVFP4を比較

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか：Nemotronでmetadata-only preflightを検証

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか：NemotronでQuantum ESPRESSOとLAMMPSを検証