エージェントスキルを評価するベンチマークを作ってみた

コーディングエージェントを日常的に活用する開発者にとって、ハーネスの選び方は作業効率を大きく左右します。AGENTS.mdやCLAUDE.md、MCP、Skillsといった仕組みの違いを理解し、適切に評価する枠組みを構築することは、AIツールの運用を最適化する上で重要です。

📑目次

コーディングエージェントのハーネス比較
スキルベンチマークの作成背景
ベンチマーク結果と考察
スキル評価のポイントと今後の展望
よくある質問（FAQ）
まとめと読者への示唆

Future Architect技術ブログの記事では、こうしたエージェントスキルを定量的に評価するベンチマークの取り組みが紹介されています。公式ソースである同ブログを基に、ハーネス間の違いや実際のベンチマーク結果を整理してみましょう。

コーディングエージェントのハーネス比較

AGENTS.md/CLAUDE.md、MCP、Skillsの主な違いを以下の表にまとめました。これらは常時読み込みか必要時ロードか、コンテキスト消費量、動的データへの対応などで異なります。

ハーネス	読み込みタイミング	コンテキスト消費	動的データ対応	主な用途
AGENTS.md / CLAUDE.md	プロジェクト全体を常時読み込み	大	△	全体方針の維持
MCP	必要に応じて外部連携	中〜大	◎	動的データ活用
Skills	特定タスク手順を必要時ロード	小	○	繰り返し作業の効率化

出典: Future Architect 技術ブログ (https://future-architect.github.io/articles/20260622a/)（2026年6月時点）

この比較から、シンプルなタスクでは常時読み込み型のハーネスがオーバーヘッドになる可能性がある一方、複雑な処理ではMCPのような動的対応が有効であることがわかります。

スキルベンチマークの作成背景

Future Architectの取り組みでは、Codex SDKを活用したベンチマークツール（github.com/shibukawa/codex-skill-bench）が作成されました。検証対象はシンプルタスクとしてライセンスヘッダーの挿入、複雑タスクとしてデータベース集計の2パターンです。

このベンチマークの目的は、スキル化が実際に処理時間やトークン消費にどのような影響を与えるかを定量的に測定することにあります。Codex-5.5 SDKを用いることで、セッション作成やログ確認が容易になり、評価の再現性が高まっています。

ベンチマーク結果と考察

シンプルタスクでは、スキル有無による処理時間の差はほとんどありませんでした。Codexの賢さにより、暗黙的な実行でも十分対応でき、トークン消費の差も小さい結果となりました。ただし、プリロード時のキャッシュ効果には注意が必要で、非キャッシュ時のトークン消費はほぼ同等でした。

一方、複雑タスクではスキル使用によりトークン消費と処理時間の削減が確認できました。暗黙実行の場合、descriptionに依存した探索コストが増加する可能性も指摘されています。

全体として、トークンコストの監視が重要であり、キャッシュヒット時にはAPIコストが1/10程度に抑えられる点も注目されます。

出典: Future Architect 技術ブログ (https://future-architect.github.io/articles/20260622a/) および https://github.com/shibukawa/codex-skill-bench

スキル評価のポイントと今後の展望

プロンプト評価よりもスキル評価の難易度が高い理由として、ワークスペースの準備、スキル起動の確認、ファイル変更の評価が必要になる点が挙げられます。Codex SDKのログ機能を活用することで、これらのプロセスを可視化しやすくなります。

将来的には「AI予想トークン数」の見積もり手法が発展する可能性があり、運用コストの予測精度向上に寄与すると期待されます。トークン消費をKPIとして重視することで、スキル化の効果を継続的に測定できるでしょう。

関連記事:

よくある質問（FAQ）

Q1. AGENTS.mdとSkillsの違いは？

A1. AGENTS.mdはプロジェクト全体の方針を常時読み込むのに対し、Skillsは特定タスクの手順を必要に応じてロードします。コンテキスト消費が小さく、作成も容易な点がSkillsの特徴です。

Q2. MCPの利点は動的データ対応以外に？

A2. 外部連携を柔軟に行える点や、必要時のみ中〜大規模のコンテキストを消費する点が挙げられます。動的データへの対応力が特に強い仕組みです。

Q3. シンプルタスクでスキル効果が出ない理由は？

A3. Codexのようなエージェントの賢さにより、暗黙的な実行だけで十分対応できるためです。スキル化のオーバーヘッドが効果を相殺するケースが見られます。

Q4. Codex SDKの利点は？

A4. セッション作成やログ確認が容易で、ベンチマークの再現性が高い点です。処理時間やトークン消費の定量測定に適しています。

Q5. トークン消費のKPIとして何を重視すべき？

A5. キャッシュヒット率や非キャッシュ時の消費量、全体のAPIコストを重視します。1/10程度のコスト削減効果を継続的に監視することが有効です。

Q6. スキルベンチマークの再現性は？

A6. Codex SDKのログ機能を活用することで高く保てます。ワークスペース準備やファイル評価のプロセスを標準化することがポイントです。

Q7. 将来的なトークン見積もりの影響は？

A7. AIによる予想トークン数の精度向上により、運用コストの予測がしやすくなり、予算管理やリソース配分の最適化につながります。

まとめと読者への示唆

スキル化は複雑タスクで有効である一方、簡単なタスクでは過度な導入を避けるのが賢明です。定量的な測定を通じて、AIツールの運用改善に向けた具体的なヒントが得られます。Future Architect技術ブログの取り組みを参考に、自身の環境でベンチマークを試してみることをおすすめします。

出典: Future Architect 技術ブログ (https://future-architect.github.io/articles/20260622a/)

著者

krona23

IT業界20年以上の実務経験を持ち、日本国内有数のPVを誇る大規模Webサービスで事業部長・CTOを複数社で歴任。Windows/iOS/Android/Webと技術の変遷を経験し、現在はAIネイティブへの変革に注力。DevGENTでは、AIコードエディタ・自動化ツール・LLMの実践的な使い方を日英西3言語で発信中。

DevGENT について →

コメントを残すコメントをキャンセル

マネーフォワード、GitHub不正アクセスで新たに6.3万人分の情報流出可能性 — 公式調査完了

『めっちゃカメレオン』2人2ヶ月で300万本突破の裏側｜開発者インタビュー

個人のプロンプト術卒業！チームで回すAI駆動開発ループの作り方

Trending

マネーフォワード、GitHub不正アクセスで新たに6.3万人分の情報流出可能性 — 公式調査完了

『めっちゃカメレオン』2人2ヶ月で300万本突破の裏側｜開発者インタビュー

個人のプロンプト術卒業！チームで回すAI駆動開発ループの作り方

Codex CLIがSSDを酷使？年間640TB書き込みで寿命1年未満のリスクと対策【やじうまの杜】

エージェントスキルを評価するベンチマークを作ってみた | Codex SDKでスキル効果測定

コーディングエージェントのハーネス比較

スキルベンチマークの作成背景

ベンチマーク結果と考察

スキル評価のポイントと今後の展望

よくある質問（FAQ）

まとめと読者への示唆

共有:

いいね:

コメントを残すコメントをキャンセル

Trending

マネーフォワード、GitHub不正アクセスで新たに6.3万人分の情報流出可能性 — 公式調査完了

『めっちゃカメレオン』2人2ヶ月で300万本突破の裏側｜開発者インタビュー

個人のプロンプト術卒業！チームで回すAI駆動開発ループの作り方

Codex CLIがSSDを酷使？ 年間640TB書き込みで寿命1年未満のリスクと対策【やじうまの杜】

DevGENTをもっと見る

Codex CLIがSSDを酷使？年間640TB書き込みで寿命1年未満のリスクと対策【やじうまの杜】