notes-migration

Ep2: QE GPU + Allegro training（H200 NVL）

Ep2: QE GPU + Allegro training（H200 NVL）このページは notes（MkDocs）版へ移行中です。 TL;DR H200 NVL 環境で QE（DFT）をGPU実行し、得られたデータで Allegro/NequIP を学習する流れを「再現できる形」に整理します。つまずきやすいのは環境差（ドライバ/ライブラリ/ビルド条件）とデータ整形（学習フォーマット）です。ここでは最小の確認ポイントをまとめます。「学習の反復を速く回す」なら 8GPU、「まず運用を固めて回す」なら 4GPU が合いやすい（最終は要件

Ep2: QE GPU + Allegro training（H200 NVL）

このページは notes（MkDocs）版へ移行中です。

TL;DR

H200 NVL 環境で QE（DFT）をGPU実行し、得られたデータで Allegro/NequIP を学習する流れを「再現できる形」に整理します。
つまずきやすいのは 環境差（ドライバ/ライブラリ/ビルド条件） と データ整形（学習フォーマット） です。ここでは最小の確認ポイントをまとめます。
「学習の反復を速く回す」なら 8GPU、「まず運用を固めて回す」なら 4GPU が合いやすい（最終は要件で決めます）。

このページで得られること

QE GPU 実行の導入チェック（何が動けばOKか）
DFT → 学習データ（extxyz等）→ 学習 → 推論の最小パイプライン
H200 NVL 4GPU/8GPU の選び方（判断観点）

最小パイプライン（全体像）

GPU環境確認（ドライバ、CUDA、NCCL 等）
QE（GPU）でDFT計算 → ログ/出力確認
学習データ作成（構造/エネルギー/力/応力を整形）
Allegro/NequIP 学習（小規模で完走確認→本学習）
推論・評価（誤差/安定性）
LAMMPS連携（AI-MDの最小入力で完走確認）

典型的なチェック観点（メモ）

QE：GPU有効化の確認（ログ/実行オプション/性能の出方）
学習：データの単位・原子種・応力有無などの整合
運用：再開（resume）、ログ保存、バージョン固定、受け入れテスト

4GPU/8GPUの考え方（超簡易）

4GPU：まずは「壊れない運用」と反復を固める（開発・検証向き）
8GPU：学習反復のスループット重視（納期短縮・大規模向き）

※最終判断は「反復回数」「データ量」「納期」「並列要件」で決まります。迷ったら用途から提案します。

相談・見積

→ お問い合わせ

---

A100×4は必須ではなかった：DS4 q2をA100 80GB×2 NVLinkで動かす

DS4 q2-imatrix / ctx131K の短時間smokeと8K benchmarkが、A100 80GB×2 NVLink接続ペアで完走しました。今回の結果は q2・短時間検証・NVLink接続ペアという条件付きですが、少なくとも入口構成としてはA100×4必須ではない可能性を確認できました。

Local LLM controllerは未知の研究計算タスクを前進させられるか：LLZOとQuantum ESPRESSOで実践

Local LLM controller、Web検索、安全なCLI操作を組み合わせ、LLZOのLiイオン拡散評価に向けたQuantum ESPRESSO環境構築とbounded sanity runまでを実践しました。

RTX PRO 6000 Blackwell 2枚で科学計算LLMを検証：72B BF16、120B FP8、235B NVFP4を比較

RTX PRO 6000 Blackwell 2GPU評価機で、Qwen2.5-72B BF16/FP8/NVFP4、Nemotron3 120B FP8、Qwen3 235B NVFP4をQE/LAMMPS入力生成タスクで比較しました。

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか：Nemotronでmetadata-only preflightを検証

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか：Nemotronでmetadata-only preflightを検証これは性能ベンチマークではありません。A100x4上のローカルLLMで、Allegro / NeQUIPの学習設定YAMLをどこまで安全に作り、実行前に確認できるかを調べた機能検証です。結論から言うと、NemotronはAllegro / NeQUIPのtraining YAML候補を生成できました。既存SIF内で torch / nequip / allegro のimport、A100x4のCUDA可視

Ep2: QE GPU + Allegro training（H200 NVL）

Ep2: QE GPU + Allegro training（H200 NVL）

TL;DR

このページで得られること

最小パイプライン（全体像）

典型的なチェック観点（メモ）

4GPU/8GPUの考え方（超簡易）

関連

相談・見積

Read more

A100×4は必須ではなかった：DS4 q2をA100 80GB×2 NVLinkで動かす

Local LLM controllerは未知の研究計算タスクを前進させられるか：LLZOとQuantum ESPRESSOで実践

RTX PRO 6000 Blackwell 2枚で科学計算LLMを検証：72B BF16、120B FP8、235B NVFP4を比較

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか：Nemotronでmetadata-only preflightを検証