A100×4は必須ではなかった:DS4 q2をA100 80GB×2 NVLinkで動かす
DS4 q2-imatrix / ctx131K の短時間smokeと8K benchmarkが、A100 80GB×2 NVLink接続ペアで完走しました。今回の結果は q2・短時間検証・NVLink接続ペアという条件付きですが、少なくとも入口構成としてはA100×4必須ではない可能性を確認できました。
GPUサーバー上で大規模LLMを動かすとき、最初に問題になるのは「本当にこの構成で動くのか」という点です。モデルのサイズ、量子化形式、GPUメモリ、GPU間接続、KV cache、context length、起動順、layer splitなど、カタログスペックだけでは判断しにくい要素が多くあります。
今回、ServerGearでは ARC GPU Maximizer の実機検証として、DeepSeek V4 Flashをローカルで動かすための専用実行runtimeである DS4 を、A100 80GB GPUサーバー上で動作確認しました。
結論から言うと、DS4 q2-imatrix / ctx131K の短時間smokeおよび8K benchmarkは、A100 80GB×2 NVLink接続ペアで完走しました。今回の結果は q2・短時間検証・NVLink接続ペアという条件付きですが、少なくとも入口構成としてはA100×4必須ではない可能性を確認できました。
これは重要な結果です。なぜなら、当初は「このクラスのLLMをGPUサーバーで動かすにはA100×4が必要ではないか」と考えていたからです。しかし実測では、q2-imatrixの入口構成としては、A100×4が必須とは限らないことが分かりました。
検証した構成
今回の主な検証条件は以下です。
| 項目 | 内容 |
|---|---|
| GPU | A100 80GB PCIe |
| 2GPU構成 | GPU0 + GPU1 |
| GPU間接続 | NVLink接続ペア、topo上はNV12 |
| モデル | DS4 q2-imatrix |
| context length | 131072 |
| tokens | 2048 |
| disk KV | 4096MB |
| layer split | GPU0 coordinator 0:21 / GPU1 worker 22:output |
| 検証内容 | short smoke、fixed decode、8K prefill benchmark |
今回の結果は、あくまで A100 80GB×2のNVLink接続ペア での結果です。PCIeのみの組み合わせや、NVLinkで接続されていないGPUペアでは、結果が変わる可能性があります。
実測結果
A100×2構成では、以下の結果になりました。
| 指標 | A100 80GB×2 NVLink |
|---|---|
| short smoke | 成功 |
| short smoke速度 | 22.690 tokens/sec |
| fixed decode平均 | 25.185 tokens/sec |
| 8K prefill | 成功 |
| 8K prefill速度 | 8.547 tokens/sec |
| 8K latency | 29.951秒 |
| GPU memory peak | GPU0: 58995 MiB / GPU1: 55095 MiB |
特に注目すべき点は、A100 80GB×2でもGPUメモリに収まり、ctx131K設定で8K benchmarkまで完走したことです。
A100×2とA100×4の比較
同じq2-imatrix / ctx131K / KV4096MB条件で、A100×4構成とも比較しました。
| 指標 | A100×2 NVLink | A100×4 | A100×2 / A100×4 |
|---|---|---|---|
| fixed decode | 25.185 tok/s | 21.528 tok/s | 1.17倍 |
| 8K prefill | 8.547 tok/s | 5.404 tok/s | 1.58倍 |
| 8K latency | 29.951秒 | 47.368秒 | A100×2が短い |
今回の短時間benchmarkでは、A100×2の方がA100×4より良い数値になりました。
ただし、これは「A100×2が常にA100×4より速い」という意味ではありません。DS4の分散実行では、GPUを増やすことでメモリの余裕は増えますが、同時にGPU間通信やlayer splitの影響も受けます。今回のq2構成では、2GPUにまとめた方が通信経路が短く、結果として良い数値が出た可能性があります。
つまり、今回言えることは次の通りです。
DS4 q2-imatrixの入口構成としては、A100 80GB×2 NVLink接続ペアでも十分に検討できる。A100×4は必須ではない可能性がある。
DGX Spark referenceとの比較
検証proofpack内のDGX Spark reference値とも比較しました。
| 指標 | A100×2 NVLink | DGX Spark reference | A100×2 / DGX |
|---|---|---|---|
| fixed decode | 25.185 tok/s | 14.988 tok/s | 1.68倍 |
| 8K prefill | 8.547 tok/s | 4.415 tok/s | 1.94倍 |
この結果から、A100 80GB×2構成は、DS4 q2-imatrixを動かす入口としてかなり有望に見えます。
ただし、この比較も q2-imatrix / ctx131K / 短時間benchmark という条件付きです。長時間運用、複数ユーザ、実顧客ワークロード、q4-imatrixでは、別途検証が必要です。
ではA100×4は不要なのか
そうではありません。
今回分かったのは、q2-imatrixの入口構成としてA100×4が必須ではなさそうだ ということです。一方で、A100×4には別の重要な役割があります。
たとえば、次のような検証や運用ではA100×4が重要になります。
- q4-imatrixの起動検証
- より高品質な量子化モデルの運用
- 長時間耐久テスト
- 複数セッション運用
- 大きなKV cacheを使う運用
- 実顧客ワークロードに近い検証
- 余裕を持ったデモ環境の構築
つまり、A100×2は「入口構成」、A100×4は「高品質化・余裕運用・将来検証のための構成」と位置づけるのが自然です。
ARC GPU Maximizerとは
ARC GPU Maximizerとは、DGX Sparkで開発してきたソフトウェアをGPUサーバーへ展開し、そのGPUサーバーの能力を最大限に引き出すためのAIアシスタントです。
GPUサーバーでは、ドライバ、CUDA、モデル形式、GPU間接続、メモリ容量、KV cache、起動順、layer splitなど、実際に動かしてみないと分からない判断点が多くあります。
ARC GPU Maximizerは、これらを推測ではなく、実機の証跡に基づいて確認します。そして、LLM起動、ベンチマーク、エラー解析、構成比較、運用判断を支援します。
今回のA100×2/A100×4検証でも、ARC GPU Maximizerは次のような情報をproofpackとして残しました。
- どのGPU構成で動いたか
- どのlayer splitを使ったか
- どのcontext lengthで動いたか
- GPUメモリ使用量はどの程度か
- A100×2とA100×4で速度差がどう出たか
- どこまで公開してよいか
- 何はまだ未検証として扱うべきか
これは、GPUサーバーを販売するだけでなく、その上でAI環境を立ち上げ、診断し、改善していくための実機支援レイヤーです。
実機デモ販売への展開
GPUサーバーは、スペック表だけでは本当の価値が伝わりにくい製品です。
「A100が何枚載っているか」「メモリが何GBあるか」だけでは、ユーザーは自分の用途でどの程度使えるのかを判断しにくいからです。
そのため、今後は主要なGPUサーバーを社内デモ機として用意し、その中にARC GPU Maximizerを導入して、実際にユーザーに体験してもらう流れが有効だと考えています。
たとえば、今回のように、
- A100×2でどこまで動くか
- A100×4にすると何が変わるか
- q2とq4で何が違うか
- 長いcontextを使うと速度やメモリがどう変わるか
- エラーが出たときにARCがどのように調査するか
といった点を、実機で見せることができます。
これは、車を試乗してから購入するのに近い考え方です。GPUサーバーも、スペック表だけでなく、実際の体験に基づいて納得してもらう販売方法が重要になります。
今回の注意点
今回の結果は有望ですが、公開時には条件を明確にする必要があります。
今回の結果は、A100 80GB×2のNVLink接続ペアで、DS4 q2-imatrixをctx131K / tokens2048 / KV4096MBで短時間smokeおよび8K benchmarkしたものです。
以下はまだ未検証です。
- q4-imatrix
- 長時間耐久
- SSD KV性能
- 複数ユーザ運用
- 実顧客ワークロード
- 本番SLA
また、速度はprompt、KV状態、layer split、起動順、GPU接続条件に依存します。今回の数値を、すべてのA100構成にそのまま一般化することはできません。
次に検証すること
次のステップでは、q4-imatrixをA100×4で試す予定です。
q2-imatrixがA100×2の入口構成として有望であることは確認できました。次は、より高品質なq4-imatrixがA100×4でどの程度動くのかを確認します。
その後、以下の検証を進める予定です。
- q4-imatrix A100×4 smoke
- q2 A100×2の長時間耐久
- SSD KV性能確認
- Codex / ARCとの実接続
- 実機デモ用シナリオ作成
今回の結果は、ARC GPU Maximizerの方向性を示す良い第一歩です。
GPUサーバーの能力を、単に「スペックとして示す」のではなく、「実際にどこまで使えるか」を証跡付きで示す。これが、ARC GPU Maximizerの価値です。