AI推論サービング実測:A100×4 vs H100 NVL×4(vLLM / Qwen2.5-7B)TTFTと同時ユーザー

AI推論サービング実測:A100×4 vs H100 NVL×4(vLLM / Qwen2.5-7B)TTFTと同時ユーザー 結論(3行) 同時32の出力スループット: H100×4 = 5414 tok/s , A100×4 = 3723 tok/s ( 1.45× ) 同時32のTTFT(平均): H100×4 = 66.66 ms , A100×4 = 82.11 ms (H100の方が短い) つまり 「同時ユーザーが増えるほど差が効く」 =社内AI・RAG・運用支援のような“多人数同時利用”でGPU選定の根拠にしやすい --- これは何の実測?

Share

AI推論サービング実測:A100×4 vs H100 NVL×4(vLLM / Qwen2.5-7B)TTFTと同時ユーザー

結論(3行)

  • 同時32の出力スループット:H100×4 = 5414 tok/s, A100×4 = 3723 tok/s1.45×
  • 同時32のTTFT(平均):H100×4 = 66.66 ms, A100×4 = 82.11 ms(H100の方が短い)
  • つまり 「同時ユーザーが増えるほど差が効く」=社内AI・RAG・運用支援のような“多人数同時利用”でGPU選定の根拠にしやすい

---

これは何の実測?

LLMをオンプレで“サーバとして提供する”ときの性能を測っています。 個人が1回推論する速さよりも、同時に何人が使えるか(同時リクエスト)と、 最初の返事までの体感速度(TTFT)が重要になります。

---

実測条件(同一条件で比較)

  • モデル:Qwen/Qwen2.5-7B-Instruct
  • サーバ:vLLM(OpenAI互換API)
  • 入力/出力:input_len=512 / output_len=256
  • リクエスト数:num_prompts=200(各concurrencyで同一)
  • GPU:H100 NVL 94GB×4 vs A100 80GB×4
  • 並列:tensor_parallel_size=4
  • 同時実行(max_concurrency):1, 2, 4, 8, 16, 32

---

結果(H100×4 vs A100×4)

※スループットは Output token throughput (tok/s)、TTFTは Mean TTFT (ms)、TPOTは Mean TPOT (ms)

ConcurrencyH100 req/sA100 req/sreq/s比H100 tok/sA100 tok/stok/s比H100 TTFT(ms)A100 TTFT(ms)H100 TPOT(ms)A100 TPOT(ms)
10.970.691.41×247.20176.561.40×32.7050.193.935.49
21.931.351.43×493.44344.841.43×23.6629.983.975.70
43.692.661.39×944.44682.141.38×28.8034.044.145.75
87.264.931.47×1858.471261.901.47×33.1639.224.186.20
1613.289.021.47×3400.022308.601.47×52.2561.484.336.44
3221.1514.541.45×5414.053723.321.45×66.6682.115.167.53

---

“何がすごい?”を素人向けに一言で

同時に使う人数(同時リクエスト)が増えても、H100×4の方が“返事が早くて、全体でさばける量が多い” → だから、社内AI(チャット/RAG/運用支援)を「複数人で同時に使う」用途で、投資理由が説明しやすくなります。

---

どう売りに繋がる?(H200 NVLへの接続)

  • 4GPU:TTFTとスループットの底上げ(体感と同時ユーザー)
  • 8GPU:同時ユーザーの上限をさらに押し上げる/別案件を並列に回す(運用・PoCの回転が速くなる)

---

限界(正直に1行)

モデル/入力長/出力長/サーバ設定で数値は変わります。ここでは「同条件比較」で差を見るのが目的です。

---

PoC(オンプレ)相談

オンプレで「社内AI(RAG/チャット/運用支援)」を動かす前提で、 想定同時ユーザー数・TTFT目標・ログ/監査要件まで含めて短期PoCが可能です。

Read more

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか:Nemotronでmetadata-only preflightを検証

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか:Nemotronでmetadata-only preflightを検証 これは性能ベンチマークではありません。A100x4上のローカルLLMで、Allegro / NeQUIPの学習設定YAMLをどこまで安全に作り、実行前に確認できるかを調べた機能検証です。 結論から言うと、NemotronはAllegro / NeQUIPのtraining YAML候補を生成できました。既存SIF内で torch / nequip / allegro のimport、A100x4のCUDA可視

By Kenetsu Hanabusa

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか:NemotronでQuantum ESPRESSOとLAMMPSを検証

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか:NemotronでQuantum ESPRESSOとLAMMPSを検証 この記事の位置づけ これは性能ベンチマークではなく、 ローカルLLMがHPC入力ファイルの生成、実行ログを使った修正、再実行まで支援できるか を確認した機能検証です。 H200 NVLやRTX PRO 6000 Blackwellへの一般化はせず、次回以降の別フェーズとして扱います。 結論 A100 80GB x4上で NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 をローカル配信し、Quantum

By Kenetsu Hanabusa