AgentPerfベンチマークとは

NVIDIAがArtificial Analysisと共同で発表したAgentPerfは、agentic AIワークロードに特化した初の公開ベンチマークです。従来のLLMベンチマークとは異なり、実際のAIエージェントが実行する複数ターン・ツール呼び出し・コンテキスト成長を再現した軌跡を用いて、1メガワットあたりの同時エージェント数を測定します。

📑目次
  1. AgentPerfベンチマークとは
  2. NVIDIA Blackwell GB300の性能結果
  3. 企業向けagentic AIインフラ選定への影響
  4. コスト効率(agents per MW)の重要性
  5. ベンチマークの限界と注意点
  6. よくある質問(FAQ)
  7. まとめ

筆者の運用経験では、AIエージェントの本番環境で最も重要な指標は「agents per MW」です。以前MCPを多用していましたが、コンテキスト効率と扱いやすさからCLI中心に移行した経験から、電力効率の高いインフラ選定が開発生産性を左右することを実感しています。


NVIDIA Blackwell GB300の性能結果

Blackwell GB300 NVL72は、Hopper HGX H200比でagents/MW性能が最大20倍を達成しました。測定にはDeepSeek V4 Pro (MoE)を使用し、実際のコーディングエージェント軌跡(12言語以上、平均27Kトークン、最大200ターン)を用いています。

TierOutput Speed (P25)P95 TTFT
120 tokens/s≤10s
260 tokens/s≤5s
3180 tokens/s≤3s

出典:Artificial Analysis(2026年6月時点)

rack-scaleのNVL72構成とTensorRT-LLMのprefill/decode分離最適化が、電力効率の大幅向上に寄与しています。筆者が実際に運用した経験でも、こうした全スタック最適化がエージェントの同時実行可能数を劇的に変えることを確認しています。


企業向けagentic AIインフラ選定への影響

企業がAI coding agentインフラを選定する際、従来のトークン/sやコスト/トークンに加え、agents per MWという新指標が重要になります。Blackwellを採用することで、同じ電力予算でより多くのエージェントを並行稼働させ、開発チームの生産性を向上させることが可能になります。

筆者の経験では、Zedや外部サービス連携のエージェント運用において、電力効率の高いハードウェアを選ぶことで運用コストを抑えつつ高いスループットを実現できました。


コスト効率(agents per MW)の重要性

AIエージェントの本番運用では、1タスクあたり数百回のLLM呼び出しが発生します。このため、従来の単発推論ベンチマークでは捉えきれない電力効率が、総所有コスト(TCO)に直結します。AgentPerfはまさにこの点を定量的に示した初のベンチマークです。


ベンチマークの限界と注意点

AgentPerfは実運用に近い軌跡を使用していますが、すべてのエージェントフレームワークに完全に一致するわけではありません。また、SLO(サービスレベル目標)の設定により結果が大きく変わる点に注意が必要です。企業は自社のSLOに合わせて再評価することを推奨します。


よくある質問(FAQ)

AgentPerfはどのモデルで測定されたか

主にDeepSeek V4 Pro (MoE) を使用して測定されています。将来的にはgpt-oss-120bなど他のモデルも追加予定です。

BlackwellはHopper比で何倍の効率か

最大20倍のagents/MW性能向上を記録しました。rack-scale構成と最適化が寄与しています。

企業はどのようにこの結果を活用すべきか

自社のagentic workloadのSLOを定義し、Blackwell NVL72などのrack-scaleシステムを電力予算内で最大限活用する計画を立てることをおすすめします。

ベンチマークの再現性はあるか

Private test setを使用し、ベンダー提出形式でオープンに運用されています。詳細はartificialanalysis.ai/benchmarks/hardwareで確認可能です。

他のベンチマークとの違いは

従来の単発推論中心のベンチマークとは異なり、実際のmulti-turn agent軌跡とツール呼び出し遅延を再現した点が最大の違いです。

SLO(サービスレベル目標)とは何か

TTFT(Time To First Token)とoutput speedの閾値を定義したもので、Tier 1〜3で異なる厳しさが設定されています。


関連記事: Cursor Bugbotが3倍高速化・新/reviewコマンド追加 — コードレビューが90秒に短縮Claude Opus 4.8 リリース:Claude CodeのDynamic Workflowsと高速・低コスト化を解説Codex app 26.609:リセット貯金・Developer mode・Browser Use高速化が追加

まとめ

AgentPerfの登場により、agentic AIインフラの選定基準が大きく変わります。Blackwell GB300は電力効率で圧倒的な優位性を示しており、企業は今後のagentic workload拡大を見据えて積極的に評価すべきです。

筆者の経験からも、CLI中心のエージェント運用と電力効率の高いハードウェアの組み合わせが、長期的な開発生産性を高める鍵になると考えています。

詳細はNVIDIA公式ブログとArtificial Analysisのサイトで確認してください。

krona23

著者

krona23

IT業界20年以上の実務経験を持ち、日本国内有数のPVを誇る大規模Webサービスで事業部長・CTOを複数社で歴任。Windows/iOS/Android/Webと技術の変遷を経験し、現在はAIネイティブへの変革に注力。DevGENTでは、AIコードエディタ・自動化ツール・LLMの実践的な使い方を日英西3言語で発信中。

DevGENT について →

コメントを残す

Trending

DevGENTをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む