A100×4は必須ではなかった:DS4 q2をA100 80GB×2 NVLinkで動かす

DS4 q2-imatrix / ctx131K の短時間smokeと8K benchmarkが、A100 80GB×2 NVLink接続ペアで完走しました。今回の結果は q2・短時間検証・NVLink接続ペアという条件付きですが、少なくとも入口構成としてはA100×4必須ではない可能性を確認できました。

Share

GPUサーバー上で大規模LLMを動かすとき、最初に問題になるのは「本当にこの構成で動くのか」という点です。モデルのサイズ、量子化形式、GPUメモリ、GPU間接続、KV cache、context length、起動順、layer splitなど、カタログスペックだけでは判断しにくい要素が多くあります。

今回、ServerGearでは ARC GPU Maximizer の実機検証として、DeepSeek V4 Flashをローカルで動かすための専用実行runtimeである DS4 を、A100 80GB GPUサーバー上で動作確認しました。

結論から言うと、DS4 q2-imatrix / ctx131K の短時間smokeおよび8K benchmarkは、A100 80GB×2 NVLink接続ペアで完走しました。今回の結果は q2・短時間検証・NVLink接続ペアという条件付きですが、少なくとも入口構成としてはA100×4必須ではない可能性を確認できました。

これは重要な結果です。なぜなら、当初は「このクラスのLLMをGPUサーバーで動かすにはA100×4が必要ではないか」と考えていたからです。しかし実測では、q2-imatrixの入口構成としては、A100×4が必須とは限らないことが分かりました。

検証した構成

今回の主な検証条件は以下です。

項目 内容
GPU A100 80GB PCIe
2GPU構成 GPU0 + GPU1
GPU間接続 NVLink接続ペア、topo上はNV12
モデル DS4 q2-imatrix
context length 131072
tokens 2048
disk KV 4096MB
layer split GPU0 coordinator 0:21 / GPU1 worker 22:output
検証内容 short smoke、fixed decode、8K prefill benchmark

今回の結果は、あくまで A100 80GB×2のNVLink接続ペア での結果です。PCIeのみの組み合わせや、NVLinkで接続されていないGPUペアでは、結果が変わる可能性があります。

実測結果

A100×2構成では、以下の結果になりました。

指標 A100 80GB×2 NVLink
short smoke 成功
short smoke速度 22.690 tokens/sec
fixed decode平均 25.185 tokens/sec
8K prefill 成功
8K prefill速度 8.547 tokens/sec
8K latency 29.951秒
GPU memory peak GPU0: 58995 MiB / GPU1: 55095 MiB

特に注目すべき点は、A100 80GB×2でもGPUメモリに収まり、ctx131K設定で8K benchmarkまで完走したことです。

A100×2とA100×4の比較

同じq2-imatrix / ctx131K / KV4096MB条件で、A100×4構成とも比較しました。

指標 A100×2 NVLink A100×4 A100×2 / A100×4
fixed decode 25.185 tok/s 21.528 tok/s 1.17倍
8K prefill 8.547 tok/s 5.404 tok/s 1.58倍
8K latency 29.951秒 47.368秒 A100×2が短い

今回の短時間benchmarkでは、A100×2の方がA100×4より良い数値になりました。

ただし、これは「A100×2が常にA100×4より速い」という意味ではありません。DS4の分散実行では、GPUを増やすことでメモリの余裕は増えますが、同時にGPU間通信やlayer splitの影響も受けます。今回のq2構成では、2GPUにまとめた方が通信経路が短く、結果として良い数値が出た可能性があります。

つまり、今回言えることは次の通りです。

DS4 q2-imatrixの入口構成としては、A100 80GB×2 NVLink接続ペアでも十分に検討できる。A100×4は必須ではない可能性がある。

DGX Spark referenceとの比較

検証proofpack内のDGX Spark reference値とも比較しました。

指標 A100×2 NVLink DGX Spark reference A100×2 / DGX
fixed decode 25.185 tok/s 14.988 tok/s 1.68倍
8K prefill 8.547 tok/s 4.415 tok/s 1.94倍

この結果から、A100 80GB×2構成は、DS4 q2-imatrixを動かす入口としてかなり有望に見えます。

ただし、この比較も q2-imatrix / ctx131K / 短時間benchmark という条件付きです。長時間運用、複数ユーザ、実顧客ワークロード、q4-imatrixでは、別途検証が必要です。

ではA100×4は不要なのか

そうではありません。

今回分かったのは、q2-imatrixの入口構成としてA100×4が必須ではなさそうだ ということです。一方で、A100×4には別の重要な役割があります。

たとえば、次のような検証や運用ではA100×4が重要になります。

  • q4-imatrixの起動検証
  • より高品質な量子化モデルの運用
  • 長時間耐久テスト
  • 複数セッション運用
  • 大きなKV cacheを使う運用
  • 実顧客ワークロードに近い検証
  • 余裕を持ったデモ環境の構築

つまり、A100×2は「入口構成」、A100×4は「高品質化・余裕運用・将来検証のための構成」と位置づけるのが自然です。

ARC GPU Maximizerとは

ARC GPU Maximizerとは、DGX Sparkで開発してきたソフトウェアをGPUサーバーへ展開し、そのGPUサーバーの能力を最大限に引き出すためのAIアシスタントです。

GPUサーバーでは、ドライバ、CUDA、モデル形式、GPU間接続、メモリ容量、KV cache、起動順、layer splitなど、実際に動かしてみないと分からない判断点が多くあります。

ARC GPU Maximizerは、これらを推測ではなく、実機の証跡に基づいて確認します。そして、LLM起動、ベンチマーク、エラー解析、構成比較、運用判断を支援します。

今回のA100×2/A100×4検証でも、ARC GPU Maximizerは次のような情報をproofpackとして残しました。

  • どのGPU構成で動いたか
  • どのlayer splitを使ったか
  • どのcontext lengthで動いたか
  • GPUメモリ使用量はどの程度か
  • A100×2とA100×4で速度差がどう出たか
  • どこまで公開してよいか
  • 何はまだ未検証として扱うべきか

これは、GPUサーバーを販売するだけでなく、その上でAI環境を立ち上げ、診断し、改善していくための実機支援レイヤーです。

実機デモ販売への展開

GPUサーバーは、スペック表だけでは本当の価値が伝わりにくい製品です。

「A100が何枚載っているか」「メモリが何GBあるか」だけでは、ユーザーは自分の用途でどの程度使えるのかを判断しにくいからです。

そのため、今後は主要なGPUサーバーを社内デモ機として用意し、その中にARC GPU Maximizerを導入して、実際にユーザーに体験してもらう流れが有効だと考えています。

たとえば、今回のように、

  • A100×2でどこまで動くか
  • A100×4にすると何が変わるか
  • q2とq4で何が違うか
  • 長いcontextを使うと速度やメモリがどう変わるか
  • エラーが出たときにARCがどのように調査するか

といった点を、実機で見せることができます。

これは、車を試乗してから購入するのに近い考え方です。GPUサーバーも、スペック表だけでなく、実際の体験に基づいて納得してもらう販売方法が重要になります。

今回の注意点

今回の結果は有望ですが、公開時には条件を明確にする必要があります。

今回の結果は、A100 80GB×2のNVLink接続ペアで、DS4 q2-imatrixをctx131K / tokens2048 / KV4096MBで短時間smokeおよび8K benchmarkしたものです。

以下はまだ未検証です。

  • q4-imatrix
  • 長時間耐久
  • SSD KV性能
  • 複数ユーザ運用
  • 実顧客ワークロード
  • 本番SLA

また、速度はprompt、KV状態、layer split、起動順、GPU接続条件に依存します。今回の数値を、すべてのA100構成にそのまま一般化することはできません。

次に検証すること

次のステップでは、q4-imatrixをA100×4で試す予定です。

q2-imatrixがA100×2の入口構成として有望であることは確認できました。次は、より高品質なq4-imatrixがA100×4でどの程度動くのかを確認します。

その後、以下の検証を進める予定です。

  • q4-imatrix A100×4 smoke
  • q2 A100×2の長時間耐久
  • SSD KV性能確認
  • Codex / ARCとの実接続
  • 実機デモ用シナリオ作成

今回の結果は、ARC GPU Maximizerの方向性を示す良い第一歩です。

GPUサーバーの能力を、単に「スペックとして示す」のではなく、「実際にどこまで使えるか」を証跡付きで示す。これが、ARC GPU Maximizerの価値です。

Read more

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか:Nemotronでmetadata-only preflightを検証

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか:Nemotronでmetadata-only preflightを検証 これは性能ベンチマークではありません。A100x4上のローカルLLMで、Allegro / NeQUIPの学習設定YAMLをどこまで安全に作り、実行前に確認できるかを調べた機能検証です。 結論から言うと、NemotronはAllegro / NeQUIPのtraining YAML候補を生成できました。既存SIF内で torch / nequip / allegro のimport、A100x4のCUDA可視

By Kenetsu Hanabusa

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか:NemotronでQuantum ESPRESSOとLAMMPSを検証

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか:NemotronでQuantum ESPRESSOとLAMMPSを検証 この記事の位置づけ これは性能ベンチマークではなく、 ローカルLLMがHPC入力ファイルの生成、実行ログを使った修正、再実行まで支援できるか を確認した機能検証です。 H200 NVLやRTX PRO 6000 Blackwellへの一般化はせず、次回以降の別フェーズとして扱います。 結論 A100 80GB x4上で NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 をローカル配信し、Quantum

By Kenetsu Hanabusa