notes-migration

AI推論サービング実測：A100×4 vs H100 NVL×4（vLLM / Qwen2.5-7B）TTFTと同時ユーザー

AI推論サービング実測：A100×4 vs H100 NVL×4（vLLM / Qwen2.5-7B）TTFTと同時ユーザー結論（3行）同時32の出力スループット： H100×4 = 5414 tok/s , A100×4 = 3723 tok/s （ 1.45× ）同時32のTTFT（平均）： H100×4 = 66.66 ms , A100×4 = 82.11 ms （H100の方が短い）つまり「同時ユーザーが増えるほど差が効く」＝社内AI・RAG・運用支援のような“多人数同時利用”でGPU選定の根拠にしやすい --- これは何の実測？

AI推論サービング実測：A100×4 vs H100 NVL×4（vLLM / Qwen2.5-7B）TTFTと同時ユーザー

結論（3行）

同時32の出力スループット：H100×4 = 5414 tok/s, A100×4 = 3723 tok/s（1.45×）
同時32のTTFT（平均）：H100×4 = 66.66 ms, A100×4 = 82.11 ms（H100の方が短い）
つまり 「同時ユーザーが増えるほど差が効く」＝社内AI・RAG・運用支援のような“多人数同時利用”でGPU選定の根拠にしやすい

---

これは何の実測？

LLMをオンプレで“サーバとして提供する”ときの性能を測っています。個人が1回推論する速さよりも、同時に何人が使えるか（同時リクエスト）と、 最初の返事までの体感速度（TTFT）が重要になります。

---

実測条件（同一条件で比較）

モデル：Qwen/Qwen2.5-7B-Instruct
サーバ：vLLM（OpenAI互換API）
入力/出力：input_len=512 / output_len=256
リクエスト数：num_prompts=200（各concurrencyで同一）
GPU：H100 NVL 94GB×4 vs A100 80GB×4
並列：tensor_parallel_size=4
同時実行（max_concurrency）：1, 2, 4, 8, 16, 32

---

結果（H100×4 vs A100×4）

※スループットは Output token throughput (tok/s)、TTFTは Mean TTFT (ms)、TPOTは Mean TPOT (ms)。

Concurrency	H100 req/s	A100 req/s	req/s比	H100 tok/s	A100 tok/s	tok/s比	H100 TTFT(ms)	A100 TTFT(ms)	H100 TPOT(ms)	A100 TPOT(ms)
1	0.97	0.69	1.41×	247.20	176.56	1.40×	32.70	50.19	3.93	5.49
2	1.93	1.35	1.43×	493.44	344.84	1.43×	23.66	29.98	3.97	5.70
4	3.69	2.66	1.39×	944.44	682.14	1.38×	28.80	34.04	4.14	5.75
8	7.26	4.93	1.47×	1858.47	1261.90	1.47×	33.16	39.22	4.18	6.20
16	13.28	9.02	1.47×	3400.02	2308.60	1.47×	52.25	61.48	4.33	6.44
32	21.15	14.54	1.45×	5414.05	3723.32	1.45×	66.66	82.11	5.16	7.53

---

“何がすごい？”を素人向けに一言で

同時に使う人数（同時リクエスト）が増えても、H100×4の方が“返事が早くて、全体でさばける量が多い” → だから、社内AI（チャット/RAG/運用支援）を「複数人で同時に使う」用途で、投資理由が説明しやすくなります。

---

どう売りに繋がる？（H200 NVLへの接続）

4GPU：TTFTとスループットの底上げ（体感と同時ユーザー）
8GPU：同時ユーザーの上限をさらに押し上げる／別案件を並列に回す（運用・PoCの回転が速くなる）

---

限界（正直に1行）

モデル/入力長/出力長/サーバ設定で数値は変わります。ここでは「同条件比較」で差を見るのが目的です。

---

PoC（オンプレ）相談

オンプレで「社内AI（RAG/チャット/運用支援）」を動かす前提で、 想定同時ユーザー数・TTFT目標・ログ/監査要件まで含めて短期PoCが可能です。

Local LLM controllerは未知の研究計算タスクを前進させられるか：LLZOとQuantum ESPRESSOで実践

Local LLM controller、Web検索、安全なCLI操作を組み合わせ、LLZOのLiイオン拡散評価に向けたQuantum ESPRESSO環境構築とbounded sanity runまでを実践しました。

RTX PRO 6000 Blackwell 2枚で科学計算LLMを検証：72B BF16、120B FP8、235B NVFP4を比較

RTX PRO 6000 Blackwell 2GPU評価機で、Qwen2.5-72B BF16/FP8/NVFP4、Nemotron3 120B FP8、Qwen3 235B NVFP4をQE/LAMMPS入力生成タスクで比較しました。

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか：Nemotronでmetadata-only preflightを検証

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか：Nemotronでmetadata-only preflightを検証これは性能ベンチマークではありません。A100x4上のローカルLLMで、Allegro / NeQUIPの学習設定YAMLをどこまで安全に作り、実行前に確認できるかを調べた機能検証です。結論から言うと、NemotronはAllegro / NeQUIPのtraining YAML候補を生成できました。既存SIF内で torch / nequip / allegro のimport、A100x4のCUDA可視

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか：NemotronでQuantum ESPRESSOとLAMMPSを検証

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか：NemotronでQuantum ESPRESSOとLAMMPSを検証この記事の位置づけこれは性能ベンチマークではなく、ローカルLLMがHPC入力ファイルの生成、実行ログを使った修正、再実行まで支援できるかを確認した機能検証です。 H200 NVLやRTX PRO 6000 Blackwellへの一般化はせず、次回以降の別フェーズとして扱います。結論 A100 80GB x4上で NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 をローカル配信し、Quantum

AI推論サービング実測：A100×4 vs H100 NVL×4（vLLM / Qwen2.5-7B）TTFTと同時ユーザー

これは何の実測？

実測条件（同一条件で比較）

結果（H100×4 vs A100×4）

“何がすごい？”を素人向けに一言で

どう売りに繋がる？（H200 NVLへの接続）

限界（正直に1行）

PoC（オンプレ）相談

Read more

Local LLM controllerは未知の研究計算タスクを前進させられるか：LLZOとQuantum ESPRESSOで実践

RTX PRO 6000 Blackwell 2枚で科学計算LLMを検証：72B BF16、120B FP8、235B NVFP4を比較

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか：Nemotronでmetadata-only preflightを検証

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか：NemotronでQuantum ESPRESSOとLAMMPSを検証