AgentPerfベンチマークの概要と意義
NVIDIAとArtificial Analysisが共同で開発したAgentPerfベンチマークは、agentic AIワークロードに特化した初の専用評価指標です。従来のトークン毎秒ではなく「agents per megawatt」を主な指標として採用した点が最大の特徴です。電力効率がインフラ選定で最重要視される理由は、AIデータセンターの電力コストとラック容量が急速に逼迫しているためです。企業が大量のagentを同時に運用する場合、1メガワットあたりのagent数が直接TCOに影響します。従来のベンチマークでは推論速度のみが注目されていましたが、agentic workloadでは数十から数百回のLLM呼び出しが連鎖するため、電力消費量全体を考慮した指標が不可欠になりました。
📑目次
Blackwell GB300 NVL72の20倍性能結果
Blackwell GB300 NVL72はHopper H200比でagents per megawattを最大20倍達成しました。この結果は公式NVIDIAブログとArtificial Analysisの実測データで確認されています。GB300 NVL72は72GPUのrack-scale構成を採用し、disaggregated prefill/decodeとTensorRT-LLMの最適化により電力正規化された性能を大幅に向上させています。KV cache再利用とspeculative decodingの有効活用も寄与しています。disaggregatedアーキテクチャによりprefillとdecodeを別々のリソースで処理できるため、全体の電力効率が劇的に改善されます。実測では20 tokens/sのSLO tierで20倍、60 tokens/s tierでも18倍前後の改善が確認されました。
ベンチマークで使用されたワークロードの詳細
ベンチマークで使用されたワークロードは実世界のコーディングエージェント軌跡です。DeepSeek V4 Pro (MoE) を用い、200ターン超、コンテキスト10万トークン超のmulti-turn tool callを再現しています。従来の単発推論とは異なり、agentic workloadではコンテキストが段階的に成長し、KV cacheのヒット率が性能を左右します。disaggregated inferenceの最適化ポイントとして、prefillフェーズとdecodeフェーズの分離が鍵となります。これにより、大量のagentを並行運用しても電力消費を抑えつつ高スループットを維持できます。
Agents per Megawattが企業インフラに与える影響
Agents per Megawattが企業インフラに与える影響は大きいです。電力コスト試算では、rack規模展開時にBlackwellの優位性が顕著です。Service Level Tiersとして20 tokens/sと60 tokens/sの2段階が定義されており、自社ワークロードの要件に合わせて選択可能です。将来的には1Mトークンコンテキスト対応も計画されています。企業にとっては、1日あたりのagent実行回数やトークン消費量を基にTCOを試算する際、この指標が直接的な判断材料となります。ラック規模の効率向上により、同一電力でより多くのagentを運用できるため、クラウド事業者やオンプレミス環境の選定に大きな影響を与えます。
Hopper vs Blackwell 性能比較表
HopperとBlackwellの性能比較は以下の表の通りです。
| 項目 | Hopper H200 | Blackwell GB300 NVL72 | 改善率 |
|---|---|---|---|
| Agents per MW (20 tok/s) | 基準値 | 20倍 | 20x |
| Agents per MW (60 tok/s) | 基準値 | 18倍前後 | ~18x |
| ラック規模効率 | 低 | 高 (NVL72) | 大幅 |
| KV cache効率 | 標準 | 最適化済み | 向上 |
出典:NVIDIA公式ブログ (https://blogs.nvidia.com/blog/nvidia-blackwell-agentperf-artificial-analysis/) および Artificial Analysis (https://artificialanalysis.ai/articles/aa-agentperf)(2026年6月時点)
よくある質問
よくある質問にお答えします。
関連記事:
- AI Agentjacking攻撃:Sentry MCP経由でClaude Code・Cursor・Codexが乗っ取り被害
- 東急「車内コンセントでモバイルバッテリー充電しないで」 注意喚起を更新
- Databricks、AI Agent向けメタハーネス「Omnigent」をオープンソース公開 — Claude Code / Codex横断でmulti-agent制御
まとめ
まとめると、AgentPerfはagentic AIインフラ選定の新基準を示しました。Blackwellの20倍性能は電力効率重視の時代に大きな意味を持ちます。企業は自社ワークロードの特性を踏まえ、SLO tiersを参考に導入を検討してください。電力コストと性能のバランスを最適化することが、今後のagenticシステム構築の鍵となります。
著者
krona23
IT業界20年以上の実務経験を持ち、日本国内有数のPVを誇る大規模Webサービスで事業部長・CTOを複数社で歴任。Windows/iOS/Android/Webと技術の変遷を経験し、現在はAIネイティブへの変革に注力。DevGENTでは、AIコードエディタ・自動化ツール・LLMの実践的な使い方を日英西3言語で発信中。







コメントを残す