コーディングエージェントを日常的に活用する開発者にとって、ハーネスの選び方は作業効率を大きく左右します。AGENTS.mdやCLAUDE.md、MCP、Skillsといった仕組みの違いを理解し、適切に評価する枠組みを構築することは、AIツールの運用を最適化する上で重要です。
Future Architect技術ブログの記事では、こうしたエージェントスキルを定量的に評価するベンチマークの取り組みが紹介されています。公式ソースである同ブログを基に、ハーネス間の違いや実際のベンチマーク結果を整理してみましょう。
コーディングエージェントのハーネス比較
AGENTS.md/CLAUDE.md、MCP、Skillsの主な違いを以下の表にまとめました。これらは常時読み込みか必要時ロードか、コンテキスト消費量、動的データへの対応などで異なります。
| ハーネス | 読み込みタイミング | コンテキスト消費 | 動的データ対応 | 主な用途 |
|---|---|---|---|---|
| AGENTS.md / CLAUDE.md | プロジェクト全体を常時読み込み | 大 | △ | 全体方針の維持 |
| MCP | 必要に応じて外部連携 | 中〜大 | ◎ | 動的データ活用 |
| Skills | 特定タスク手順を必要時ロード | 小 | ○ | 繰り返し作業の効率化 |
出典: Future Architect 技術ブログ (https://future-architect.github.io/articles/20260622a/)(2026年6月時点)
この比較から、シンプルなタスクでは常時読み込み型のハーネスがオーバーヘッドになる可能性がある一方、複雑な処理ではMCPのような動的対応が有効であることがわかります。
スキルベンチマークの作成背景
Future Architectの取り組みでは、Codex SDKを活用したベンチマークツール(github.com/shibukawa/codex-skill-bench)が作成されました。検証対象はシンプルタスクとしてライセンスヘッダーの挿入、複雑タスクとしてデータベース集計の2パターンです。
このベンチマークの目的は、スキル化が実際に処理時間やトークン消費にどのような影響を与えるかを定量的に測定することにあります。Codex-5.5 SDKを用いることで、セッション作成やログ確認が容易になり、評価の再現性が高まっています。
ベンチマーク結果と考察
シンプルタスクでは、スキル有無による処理時間の差はほとんどありませんでした。Codexの賢さにより、暗黙的な実行でも十分対応でき、トークン消費の差も小さい結果となりました。ただし、プリロード時のキャッシュ効果には注意が必要で、非キャッシュ時のトークン消費はほぼ同等でした。
一方、複雑タスクではスキル使用によりトークン消費と処理時間の削減が確認できました。暗黙実行の場合、descriptionに依存した探索コストが増加する可能性も指摘されています。
全体として、トークンコストの監視が重要であり、キャッシュヒット時にはAPIコストが1/10程度に抑えられる点も注目されます。
出典: Future Architect 技術ブログ (https://future-architect.github.io/articles/20260622a/) および https://github.com/shibukawa/codex-skill-bench
スキル評価のポイントと今後の展望
プロンプト評価よりもスキル評価の難易度が高い理由として、ワークスペースの準備、スキル起動の確認、ファイル変更の評価が必要になる点が挙げられます。Codex SDKのログ機能を活用することで、これらのプロセスを可視化しやすくなります。
将来的には「AI予想トークン数」の見積もり手法が発展する可能性があり、運用コストの予測精度向上に寄与すると期待されます。トークン消費をKPIとして重視することで、スキル化の効果を継続的に測定できるでしょう。
関連記事:
- DynatraceがAI Coding Agent監視を拡張:Claude Code・Gemini CLI・Codex CLIをOpenTelemetryで可視化
- AWSに繋げなくてもテストできる?新サービス「AWS Blocks」を触ってみた
- 画面操作を“録画”→AIが作業代行 Codexに新機能「Record & Replay」
よくある質問(FAQ)
まとめと読者への示唆
スキル化は複雑タスクで有効である一方、簡単なタスクでは過度な導入を避けるのが賢明です。定量的な測定を通じて、AIツールの運用改善に向けた具体的なヒントが得られます。Future Architect技術ブログの取り組みを参考に、自身の環境でベンチマークを試してみることをおすすめします。
出典: Future Architect 技術ブログ (https://future-architect.github.io/articles/20260622a/)
著者
krona23
IT業界20年以上の実務経験を持ち、日本国内有数のPVを誇る大規模Webサービスで事業部長・CTOを複数社で歴任。Windows/iOS/Android/Webと技術の変遷を経験し、現在はAIネイティブへの変革に注力。DevGENTでは、AIコードエディタ・自動化ツール・LLMの実践的な使い方を日英西3言語で発信中。








コメントを残す