FP64 synthetic だけでは見えない GPU 比較: QE と LAMMPS の確認結果

FP64 synthetic だけでは見えない GPU 比較: QE と LAMMPS の確認結果 結論 A100 が最速 でした。今回の比較では、QE long-run と LAMMPS selected stable case の両方で最上位です。 Ada は実用域 でした。QE long-run と custom LLZO LAMMPS の selected stable case の両方で、A100に次ぐ現実的な選択肢です。 Blackwell は今回の条件と現行スタックでは Ada より遅い 結果でした。差の主因は収束回数増ではなく、 elec

Share

FP64 synthetic だけでは見えない GPU 比較: QE と LAMMPS の確認結果

結論

  • A100 が最速でした。今回の比較では、QE long-run と LAMMPS selected stable case の両方で最上位です。
  • Ada は実用域でした。QE long-run と custom LLZO LAMMPS の selected stable case の両方で、A100に次ぐ現実的な選択肢です。
  • Blackwell は今回の条件と現行スタックでは Ada より遅い結果でした。差の主因は収束回数増ではなく、electrons 系の per-call cost 側に集中しました。

---

まず前提

  • 数値は handoff 済みの確定値に合わせています。
  • FP64 synthetic の順位は、実アプリの順位と一致しません。
  • LAMMPS の結果は 323 atoms の selected stable case です。以前の 50k staged case の直接比較ではありません。
  • Blackwell は今回の条件と現行スタックでの観測結果として扱います。一般論として「常に遅い」とは言いません。

---

比較結果の要約

QE long-run graphite_d3_k24

GPUmedian PWSCF WALL
A1001073.87 s
Ada1328.58 s
Blackwell2088.90 s
  • 最終 total energy は 3者とも -47.83513151 Ry で一致しました。
  • したがって今回の差は「別の解に落ちた」より、同じ収束先へ行くまでの実行コスト差として読むのが妥当です。
  • 観測上の差は、収束回数の増加より electrons 系 per-call cost の差に寄っていました。

LAMMPS custom LLZO selected case(323 atoms)

GPUmedian step/sns/dayelapsed
A1001.5680.135160.03 s
Ada1.3350.115183.29 s
  • このケースでも A100 が最速、Ada は実用域でした。
  • ただし繰り返しになりますが、これは 323 atoms の selected stable case であり、50k staged case の直接比較ではありません。

native FP64 cuBLAS DGEMM

GPUFP64 DGEMM
A10019.4056 TFLOP/s
Blackwell1.5875 TFLOP/s
Ada1.366926 TFLOP/s
  • synthetic では A100 >> Blackwell > Ada でした。
  • しかし実アプリ側では、少なくとも今回の QE 条件では Ada > Blackwell でした。
  • つまり FP64 synthetic だけで実アプリ順位を決めるのは危険です。

---

何が見えたか

1. A100 は今回の比較で一貫して最速

QE long-run では A100 が 1073.87 s、Ada が 1328.58 s、Blackwell が 2088.90 s でした。 LAMMPS selected stable case でも A100 が 1.568 step/s、Ada が 1.335 step/s です。 今回の条件では、A100 が最も安定して速い基準機でした。

2. Ada は「FP64 synthetic の見かけ」より実アプリで健闘

native FP64 DGEMM だけを見ると、Ada は 1.366926 TFLOP/s でかなり不利に見えます。 それでも実アプリでは、QE long-run を 1328.58 s で完走し、LAMMPS selected stable case でも 1.335 step/s を出しています。

このため、QE や LAMMPS の実運用を前提にした価格対実用性の検討では、Ada は候補から外しにくい、というのが今回の確認結果です。

3. Blackwell は今回条件では Ada を下回った

今回の QE 条件と現行スタックでは、Blackwell の median PWSCF WALL は 2088.90 s で、Ada の 1328.58 s を下回りました。 しかも差は「収束回数が増えたから」ではなく、electrons 系 per-call cost が重いことに集中していました。

ここは重要で、FP64 synthetic の理論値だけでは説明しきれないボトルネックが、実アプリ側に残っていることを示します。

---

選定上の読み方

  • 最速を取りにいくなら A100 が基準です。
  • 価格対実用性を重視するなら Ada は十分に検討対象です。
  • Blackwell は今回条件と現行スタックでは慎重評価が必要です。特に QE 系は、導入前に対象入力での確認を入れた方が安全です。
  • FP64 synthetic は入口の参考値であって、実アプリ性能の代用ではありません。

---

まとめ

  • A100 が最速
  • Ada は QE long-run と custom LLZO LAMMPS の selected stable case の両方で実用
  • Blackwell は今回の条件と現行スタックでは Ada を下回った
  • Blackwell の差は収束回数増ではなく electrons 系 per-call cost 差に集中
  • FP64 synthetic の順位は実アプリ順位と一致しない
  • LAMMPS の結果は 323 atoms selected stable case であり 50k staged case の直接比較ではない

---

比較条件の整理から相談したい場合

A100 クラスが必要か、Ada のような価格対実用性重視で足りるかを見たい場合は、比較条件の整理から相談できます。

お問い合わせ / Solutions(参考構成)

Read more

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか:Nemotronでmetadata-only preflightを検証

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか:Nemotronでmetadata-only preflightを検証 これは性能ベンチマークではありません。A100x4上のローカルLLMで、Allegro / NeQUIPの学習設定YAMLをどこまで安全に作り、実行前に確認できるかを調べた機能検証です。 結論から言うと、NemotronはAllegro / NeQUIPのtraining YAML候補を生成できました。既存SIF内で torch / nequip / allegro のimport、A100x4のCUDA可視

By Kenetsu Hanabusa

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか:NemotronでQuantum ESPRESSOとLAMMPSを検証

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか:NemotronでQuantum ESPRESSOとLAMMPSを検証 この記事の位置づけ これは性能ベンチマークではなく、 ローカルLLMがHPC入力ファイルの生成、実行ログを使った修正、再実行まで支援できるか を確認した機能検証です。 H200 NVLやRTX PRO 6000 Blackwellへの一般化はせず、次回以降の別フェーズとして扱います。 結論 A100 80GB x4上で NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 をローカル配信し、Quantum

By Kenetsu Hanabusa