AgentPerfベンチマークの概要と意義

NVIDIAとArtificial Analysisが共同で開発したAgentPerfベンチマークは、agentic AIワークロードに特化した初の専用評価指標です。従来のトークン毎秒ではなく「agents per megawatt」を主な指標として採用した点が最大の特徴です。電力効率がインフラ選定で最重要視される理由は、AIデータセンターの電力コストとラック容量が急速に逼迫しているためです。企業が大量のagentを同時に運用する場合、1メガワットあたりのagent数が直接TCOに影響します。従来のベンチマークでは推論速度のみが注目されていましたが、agentic workloadでは数十から数百回のLLM呼び出しが連鎖するため、電力消費量全体を考慮した指標が不可欠になりました。

📑目次
  1. AgentPerfベンチマークの概要と意義
  2. Blackwell GB300 NVL72の20倍性能結果
  3. ベンチマークで使用されたワークロードの詳細
  4. Agents per Megawattが企業インフラに与える影響
  5. Hopper vs Blackwell 性能比較表
  6. よくある質問
  7. まとめ

Blackwell GB300 NVL72の20倍性能結果

Blackwell GB300 NVL72はHopper H200比でagents per megawattを最大20倍達成しました。この結果は公式NVIDIAブログとArtificial Analysisの実測データで確認されています。GB300 NVL72は72GPUのrack-scale構成を採用し、disaggregated prefill/decodeとTensorRT-LLMの最適化により電力正規化された性能を大幅に向上させています。KV cache再利用とspeculative decodingの有効活用も寄与しています。disaggregatedアーキテクチャによりprefillとdecodeを別々のリソースで処理できるため、全体の電力効率が劇的に改善されます。実測では20 tokens/sのSLO tierで20倍、60 tokens/s tierでも18倍前後の改善が確認されました。


ベンチマークで使用されたワークロードの詳細

ベンチマークで使用されたワークロードは実世界のコーディングエージェント軌跡です。DeepSeek V4 Pro (MoE) を用い、200ターン超、コンテキスト10万トークン超のmulti-turn tool callを再現しています。従来の単発推論とは異なり、agentic workloadではコンテキストが段階的に成長し、KV cacheのヒット率が性能を左右します。disaggregated inferenceの最適化ポイントとして、prefillフェーズとdecodeフェーズの分離が鍵となります。これにより、大量のagentを並行運用しても電力消費を抑えつつ高スループットを維持できます。


Agents per Megawattが企業インフラに与える影響

Agents per Megawattが企業インフラに与える影響は大きいです。電力コスト試算では、rack規模展開時にBlackwellの優位性が顕著です。Service Level Tiersとして20 tokens/sと60 tokens/sの2段階が定義されており、自社ワークロードの要件に合わせて選択可能です。将来的には1Mトークンコンテキスト対応も計画されています。企業にとっては、1日あたりのagent実行回数やトークン消費量を基にTCOを試算する際、この指標が直接的な判断材料となります。ラック規模の効率向上により、同一電力でより多くのagentを運用できるため、クラウド事業者やオンプレミス環境の選定に大きな影響を与えます。


Hopper vs Blackwell 性能比較表

HopperとBlackwellの性能比較は以下の表の通りです。

項目 Hopper H200 Blackwell GB300 NVL72 改善率
Agents per MW (20 tok/s) 基準値 20倍 20x
Agents per MW (60 tok/s) 基準値 18倍前後 ~18x
ラック規模効率 高 (NVL72) 大幅
KV cache効率 標準 最適化済み 向上

出典:NVIDIA公式ブログ (https://blogs.nvidia.com/blog/nvidia-blackwell-agentperf-artificial-analysis/) および Artificial Analysis (https://artificialanalysis.ai/articles/aa-agentperf)(2026年6月時点)


よくある質問

よくある質問にお答えします。

Q: AgentPerfはどのモデルで計測されましたか?

主にDeepSeek V4 Pro (MoE) を使用し、実コーディングワークロードで検証されています。multi-turn tool callとコンテキスト成長時の挙動が重点的に評価されました。MoEモデル特有のエキスパートルーティングも考慮した測定が行われています。

Q: 20倍という数値は持続可能ですか?

結果はスナップショットであり、最適化が進むとさらに向上する可能性があります。陳腐化に注意が必要です。ベンチマークは定期的に更新される予定です。新しいモデルや最適化手法の登場により、数値がさらに改善される見込みです。

Q: 企業がAgentPerfを参考にする際の注意点は?

ベンチマークは特定のSLO tiersで計測されており、自社ワークロードのトークン速度要件と照らし合わせて判断してください。rack-scale環境とクラウドの差異も考慮が必要です。自社のagentic workloadがどのtierに該当するかを事前に分析することが重要です。

Q: Blackwellの電力効率はクラウド事業者にも影響しますか?

Together AIやDeepInfraなどの事業者で既にBlackwell採用が進んでおり、コスト競争力に直結します。電力効率の向上は直接的な料金低減につながります。事業者側もrack密度の向上により運用コストを削減できます。

Q: 今後のAgentPerfに追加予定の指標はありますか?

agents per $/hrやtool execution performanceなどTCO関連指標の追加が計画されています。1Mトークンコンテキストや追加モデルへの対応も予定されています。これにより、より実務的なTCO評価が可能になります。


関連記事:

まとめ

まとめると、AgentPerfはagentic AIインフラ選定の新基準を示しました。Blackwellの20倍性能は電力効率重視の時代に大きな意味を持ちます。企業は自社ワークロードの特性を踏まえ、SLO tiersを参考に導入を検討してください。電力コストと性能のバランスを最適化することが、今後のagenticシステム構築の鍵となります。

krona23

著者

krona23

IT業界20年以上の実務経験を持ち、日本国内有数のPVを誇る大規模Webサービスで事業部長・CTOを複数社で歴任。Windows/iOS/Android/Webと技術の変遷を経験し、現在はAIネイティブへの変革に注力。DevGENTでは、AIコードエディタ・自動化ツール・LLMの実践的な使い方を日英西3言語で発信中。

DevGENT について →

コメントを残す

Trending

DevGENTをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む