FP64 synthetic だけでは見えない GPU 比較: QE と LAMMPS の確認結果
FP64 synthetic だけでは見えない GPU 比較: QE と LAMMPS の確認結果 結論 A100 が最速 でした。今回の比較では、QE long-run と LAMMPS selected stable case の両方で最上位です。 Ada は実用域 でした。QE long-run と custom LLZO LAMMPS の selected stable case の両方で、A100に次ぐ現実的な選択肢です。 Blackwell は今回の条件と現行スタックでは Ada より遅い 結果でした。差の主因は収束回数増ではなく、 elec
FP64 synthetic だけでは見えない GPU 比較: QE と LAMMPS の確認結果
結論
- A100 が最速でした。今回の比較では、QE long-run と LAMMPS selected stable case の両方で最上位です。
- Ada は実用域でした。QE long-run と custom LLZO LAMMPS の selected stable case の両方で、A100に次ぐ現実的な選択肢です。
- Blackwell は今回の条件と現行スタックでは Ada より遅い結果でした。差の主因は収束回数増ではなく、
electrons系の per-call cost 側に集中しました。
---
まず前提
- 数値は handoff 済みの確定値に合わせています。
- FP64 synthetic の順位は、実アプリの順位と一致しません。
- LAMMPS の結果は 323 atoms の selected stable case です。以前の 50k staged case の直接比較ではありません。
- Blackwell は今回の条件と現行スタックでの観測結果として扱います。一般論として「常に遅い」とは言いません。
---
比較結果の要約
QE long-run graphite_d3_k24
| GPU | median PWSCF WALL |
|---|---|
| A100 | 1073.87 s |
| Ada | 1328.58 s |
| Blackwell | 2088.90 s |
- 最終 total energy は 3者とも
-47.83513151 Ryで一致しました。 - したがって今回の差は「別の解に落ちた」より、同じ収束先へ行くまでの実行コスト差として読むのが妥当です。
- 観測上の差は、収束回数の増加より
electrons系 per-call cost の差に寄っていました。
LAMMPS custom LLZO selected case(323 atoms)
| GPU | median step/s | ns/day | elapsed |
|---|---|---|---|
| A100 | 1.568 | 0.135 | 160.03 s |
| Ada | 1.335 | 0.115 | 183.29 s |
- このケースでも A100 が最速、Ada は実用域でした。
- ただし繰り返しになりますが、これは 323 atoms の selected stable case であり、50k staged case の直接比較ではありません。
native FP64 cuBLAS DGEMM
| GPU | FP64 DGEMM |
|---|---|
| A100 | 19.4056 TFLOP/s |
| Blackwell | 1.5875 TFLOP/s |
| Ada | 1.366926 TFLOP/s |
- synthetic では A100 >> Blackwell > Ada でした。
- しかし実アプリ側では、少なくとも今回の QE 条件では Ada > Blackwell でした。
- つまり FP64 synthetic だけで実アプリ順位を決めるのは危険です。
---
何が見えたか
1. A100 は今回の比較で一貫して最速
QE long-run では A100 が 1073.87 s、Ada が 1328.58 s、Blackwell が 2088.90 s でした。 LAMMPS selected stable case でも A100 が 1.568 step/s、Ada が 1.335 step/s です。 今回の条件では、A100 が最も安定して速い基準機でした。
2. Ada は「FP64 synthetic の見かけ」より実アプリで健闘
native FP64 DGEMM だけを見ると、Ada は 1.366926 TFLOP/s でかなり不利に見えます。 それでも実アプリでは、QE long-run を 1328.58 s で完走し、LAMMPS selected stable case でも 1.335 step/s を出しています。
このため、QE や LAMMPS の実運用を前提にした価格対実用性の検討では、Ada は候補から外しにくい、というのが今回の確認結果です。
3. Blackwell は今回条件では Ada を下回った
今回の QE 条件と現行スタックでは、Blackwell の median PWSCF WALL は 2088.90 s で、Ada の 1328.58 s を下回りました。 しかも差は「収束回数が増えたから」ではなく、electrons 系 per-call cost が重いことに集中していました。
ここは重要で、FP64 synthetic の理論値だけでは説明しきれないボトルネックが、実アプリ側に残っていることを示します。
---
選定上の読み方
- 最速を取りにいくなら A100 が基準です。
- 価格対実用性を重視するなら Ada は十分に検討対象です。
- Blackwell は今回条件と現行スタックでは慎重評価が必要です。特に QE 系は、導入前に対象入力での確認を入れた方が安全です。
- FP64 synthetic は入口の参考値であって、実アプリ性能の代用ではありません。
---
まとめ
- A100 が最速
- Ada は QE long-run と custom LLZO LAMMPS の selected stable case の両方で実用
- Blackwell は今回の条件と現行スタックでは Ada を下回った
- Blackwell の差は収束回数増ではなく
electrons系 per-call cost 差に集中 - FP64 synthetic の順位は実アプリ順位と一致しない
- LAMMPS の結果は 323 atoms selected stable case であり 50k staged case の直接比較ではない
---
比較条件の整理から相談したい場合
A100 クラスが必要か、Ada のような価格対実用性重視で足りるかを見たい場合は、比較条件の整理から相談できます。