AgentPerfベンチマークとは
NVIDIAがArtificial Analysisと共同で発表したAgentPerfは、agentic AIワークロードに特化した初の公開ベンチマークです。従来のLLMベンチマークとは異なり、実際のAIエージェントが実行する複数ターン・ツール呼び出し・コンテキスト成長を再現した軌跡を用いて、1メガワットあたりの同時エージェント数を測定します。
📑目次
筆者の運用経験では、AIエージェントの本番環境で最も重要な指標は「agents per MW」です。以前MCPを多用していましたが、コンテキスト効率と扱いやすさからCLI中心に移行した経験から、電力効率の高いインフラ選定が開発生産性を左右することを実感しています。
NVIDIA Blackwell GB300の性能結果
Blackwell GB300 NVL72は、Hopper HGX H200比でagents/MW性能が最大20倍を達成しました。測定にはDeepSeek V4 Pro (MoE)を使用し、実際のコーディングエージェント軌跡(12言語以上、平均27Kトークン、最大200ターン)を用いています。
| Tier | Output Speed (P25) | P95 TTFT |
|---|---|---|
| 1 | 20 tokens/s | ≤10s |
| 2 | 60 tokens/s | ≤5s |
| 3 | 180 tokens/s | ≤3s |
出典:Artificial Analysis(2026年6月時点)
rack-scaleのNVL72構成とTensorRT-LLMのprefill/decode分離最適化が、電力効率の大幅向上に寄与しています。筆者が実際に運用した経験でも、こうした全スタック最適化がエージェントの同時実行可能数を劇的に変えることを確認しています。
企業向けagentic AIインフラ選定への影響
企業がAI coding agentインフラを選定する際、従来のトークン/sやコスト/トークンに加え、agents per MWという新指標が重要になります。Blackwellを採用することで、同じ電力予算でより多くのエージェントを並行稼働させ、開発チームの生産性を向上させることが可能になります。
筆者の経験では、Zedや外部サービス連携のエージェント運用において、電力効率の高いハードウェアを選ぶことで運用コストを抑えつつ高いスループットを実現できました。
コスト効率(agents per MW)の重要性
AIエージェントの本番運用では、1タスクあたり数百回のLLM呼び出しが発生します。このため、従来の単発推論ベンチマークでは捉えきれない電力効率が、総所有コスト(TCO)に直結します。AgentPerfはまさにこの点を定量的に示した初のベンチマークです。
ベンチマークの限界と注意点
AgentPerfは実運用に近い軌跡を使用していますが、すべてのエージェントフレームワークに完全に一致するわけではありません。また、SLO(サービスレベル目標)の設定により結果が大きく変わる点に注意が必要です。企業は自社のSLOに合わせて再評価することを推奨します。
よくある質問(FAQ)
関連記事: Cursor Bugbotが3倍高速化・新/reviewコマンド追加 — コードレビューが90秒に短縮、Claude Opus 4.8 リリース:Claude CodeのDynamic Workflowsと高速・低コスト化を解説、Codex app 26.609:リセット貯金・Developer mode・Browser Use高速化が追加。
まとめ
AgentPerfの登場により、agentic AIインフラの選定基準が大きく変わります。Blackwell GB300は電力効率で圧倒的な優位性を示しており、企業は今後のagentic workload拡大を見据えて積極的に評価すべきです。
筆者の経験からも、CLI中心のエージェント運用と電力効率の高いハードウェアの組み合わせが、長期的な開発生産性を高める鍵になると考えています。
詳細はNVIDIA公式ブログとArtificial Analysisのサイトで確認してください。
著者
krona23
IT業界20年以上の実務経験を持ち、日本国内有数のPVを誇る大規模Webサービスで事業部長・CTOを複数社で歴任。Windows/iOS/Android/Webと技術の変遷を経験し、現在はAIネイティブへの変革に注力。DevGENTでは、AIコードエディタ・自動化ツール・LLMの実践的な使い方を日英西3言語で発信中。






コメントを残す