ARC GPU Maximizer

A100×4は必須ではなかった：DS4 q2をA100 80GB×2 NVLinkで動かす

DS4 q2-imatrix / ctx131K の短時間smokeと8K benchmarkが、A100 80GB×2 NVLink接続ペアで完走しました。今回の結果は q2・短時間検証・NVLink接続ペアという条件付きですが、少なくとも入口構成としてはA100×4必須ではない可能性を確認できました。

GPUサーバー上で大規模LLMを動かすとき、最初に問題になるのは「本当にこの構成で動くのか」という点です。モデルのサイズ、量子化形式、GPUメモリ、GPU間接続、KV cache、context length、起動順、layer splitなど、カタログスペックだけでは判断しにくい要素が多くあります。

今回、ServerGearでは ARC GPU Maximizer の実機検証として、DeepSeek V4 Flashをローカルで動かすための専用実行runtimeである DS4 を、A100 80GB GPUサーバー上で動作確認しました。

結論から言うと、DS4 q2-imatrix / ctx131K の短時間smokeおよび8K benchmarkは、A100 80GB×2 NVLink接続ペアで完走しました。今回の結果は q2・短時間検証・NVLink接続ペアという条件付きですが、少なくとも入口構成としてはA100×4必須ではない可能性を確認できました。

これは重要な結果です。なぜなら、当初は「このクラスのLLMをGPUサーバーで動かすにはA100×4が必要ではないか」と考えていたからです。しかし実測では、q2-imatrixの入口構成としては、A100×4が必須とは限らないことが分かりました。

検証した構成

今回の主な検証条件は以下です。

項目	内容
GPU	A100 80GB PCIe
2GPU構成	GPU0 + GPU1
GPU間接続	NVLink接続ペア、topo上はNV12
モデル	DS4 q2-imatrix
context length	131072
tokens	2048
disk KV	4096MB
layer split	GPU0 coordinator 0:21 / GPU1 worker 22:output
検証内容	short smoke、fixed decode、8K prefill benchmark

今回の結果は、あくまで A100 80GB×2のNVLink接続ペア での結果です。PCIeのみの組み合わせや、NVLinkで接続されていないGPUペアでは、結果が変わる可能性があります。

実測結果

A100×2構成では、以下の結果になりました。

指標	A100 80GB×2 NVLink
short smoke	成功
short smoke速度	22.690 tokens/sec
fixed decode平均	25.185 tokens/sec
8K prefill	成功
8K prefill速度	8.547 tokens/sec
8K latency	29.951秒
GPU memory peak	GPU0: 58995 MiB / GPU1: 55095 MiB

特に注目すべき点は、A100 80GB×2でもGPUメモリに収まり、ctx131K設定で8K benchmarkまで完走したことです。

A100×2とA100×4の比較

同じq2-imatrix / ctx131K / KV4096MB条件で、A100×4構成とも比較しました。

指標	A100×2 NVLink	A100×4	A100×2 / A100×4
fixed decode	25.185 tok/s	21.528 tok/s	1.17倍
8K prefill	8.547 tok/s	5.404 tok/s	1.58倍
8K latency	29.951秒	47.368秒	A100×2が短い

今回の短時間benchmarkでは、A100×2の方がA100×4より良い数値になりました。

ただし、これは「A100×2が常にA100×4より速い」という意味ではありません。DS4の分散実行では、GPUを増やすことでメモリの余裕は増えますが、同時にGPU間通信やlayer splitの影響も受けます。今回のq2構成では、2GPUにまとめた方が通信経路が短く、結果として良い数値が出た可能性があります。

つまり、今回言えることは次の通りです。

DS4 q2-imatrixの入口構成としては、A100 80GB×2 NVLink接続ペアでも十分に検討できる。A100×4は必須ではない可能性がある。

DGX Spark referenceとの比較

検証proofpack内のDGX Spark reference値とも比較しました。

指標	A100×2 NVLink	DGX Spark reference	A100×2 / DGX
fixed decode	25.185 tok/s	14.988 tok/s	1.68倍
8K prefill	8.547 tok/s	4.415 tok/s	1.94倍

この結果から、A100 80GB×2構成は、DS4 q2-imatrixを動かす入口としてかなり有望に見えます。

ただし、この比較も q2-imatrix / ctx131K / 短時間benchmark という条件付きです。長時間運用、複数ユーザ、実顧客ワークロード、q4-imatrixでは、別途検証が必要です。

ではA100×4は不要なのか

そうではありません。

今回分かったのは、q2-imatrixの入口構成としてA100×4が必須ではなさそうだ ということです。一方で、A100×4には別の重要な役割があります。

たとえば、次のような検証や運用ではA100×4が重要になります。

q4-imatrixの起動検証
より高品質な量子化モデルの運用
長時間耐久テスト
複数セッション運用
大きなKV cacheを使う運用
実顧客ワークロードに近い検証
余裕を持ったデモ環境の構築

つまり、A100×2は「入口構成」、A100×4は「高品質化・余裕運用・将来検証のための構成」と位置づけるのが自然です。

ARC GPU Maximizerとは

ARC GPU Maximizerとは、DGX Sparkで開発してきたソフトウェアをGPUサーバーへ展開し、そのGPUサーバーの能力を最大限に引き出すためのAIアシスタントです。

GPUサーバーでは、ドライバ、CUDA、モデル形式、GPU間接続、メモリ容量、KV cache、起動順、layer splitなど、実際に動かしてみないと分からない判断点が多くあります。

ARC GPU Maximizerは、これらを推測ではなく、実機の証跡に基づいて確認します。そして、LLM起動、ベンチマーク、エラー解析、構成比較、運用判断を支援します。

今回のA100×2/A100×4検証でも、ARC GPU Maximizerは次のような情報をproofpackとして残しました。

どのGPU構成で動いたか
どのlayer splitを使ったか
どのcontext lengthで動いたか
GPUメモリ使用量はどの程度か
A100×2とA100×4で速度差がどう出たか
どこまで公開してよいか
何はまだ未検証として扱うべきか

これは、GPUサーバーを販売するだけでなく、その上でAI環境を立ち上げ、診断し、改善していくための実機支援レイヤーです。

実機デモ販売への展開

GPUサーバーは、スペック表だけでは本当の価値が伝わりにくい製品です。

「A100が何枚載っているか」「メモリが何GBあるか」だけでは、ユーザーは自分の用途でどの程度使えるのかを判断しにくいからです。

そのため、今後は主要なGPUサーバーを社内デモ機として用意し、その中にARC GPU Maximizerを導入して、実際にユーザーに体験してもらう流れが有効だと考えています。

たとえば、今回のように、

A100×2でどこまで動くか
A100×4にすると何が変わるか
q2とq4で何が違うか
長いcontextを使うと速度やメモリがどう変わるか
エラーが出たときにARCがどのように調査するか

といった点を、実機で見せることができます。

これは、車を試乗してから購入するのに近い考え方です。GPUサーバーも、スペック表だけでなく、実際の体験に基づいて納得してもらう販売方法が重要になります。

今回の注意点

今回の結果は有望ですが、公開時には条件を明確にする必要があります。

今回の結果は、A100 80GB×2のNVLink接続ペアで、DS4 q2-imatrixをctx131K / tokens2048 / KV4096MBで短時間smokeおよび8K benchmarkしたものです。

以下はまだ未検証です。

q4-imatrix
長時間耐久
SSD KV性能
複数ユーザ運用
実顧客ワークロード
本番SLA

また、速度はprompt、KV状態、layer split、起動順、GPU接続条件に依存します。今回の数値を、すべてのA100構成にそのまま一般化することはできません。

次に検証すること

次のステップでは、q4-imatrixをA100×4で試す予定です。

q2-imatrixがA100×2の入口構成として有望であることは確認できました。次は、より高品質なq4-imatrixがA100×4でどの程度動くのかを確認します。

その後、以下の検証を進める予定です。

q4-imatrix A100×4 smoke
q2 A100×2の長時間耐久
SSD KV性能確認
Codex / ARCとの実接続
実機デモ用シナリオ作成

今回の結果は、ARC GPU Maximizerの方向性を示す良い第一歩です。

GPUサーバーの能力を、単に「スペックとして示す」のではなく、「実際にどこまで使えるか」を証跡付きで示す。これが、ARC GPU Maximizerの価値です。

A100×4は必須ではなかった：DS4 q2をA100 80GB×2 NVLinkで動かす

検証した構成

実測結果

A100×2とA100×4の比較

DGX Spark referenceとの比較

ではA100×4は不要なのか

ARC GPU Maximizerとは

実機デモ販売への展開

今回の注意点

次に検証すること

Read more

GPU化の前に、CPUだけで約19.3倍高速化：近畿大学の研究用Fortranコード最適化事例

A100 x4で大型ローカルLLMはどこまで使えるか: 実際の質問と回答例で比較

GPUサーバーでローカルLLMはどこまで使えるか: 運用assistantからFortran/CUDA高速化まで

GLM-5.2 2bitはGPUサーバー運用AIに使えるか？ A100×4でDS4/Qwen3-14Bと比較