Arborは、Renmin University of ChinaとMicrosoft Researchが共同で開発したAIエージェント向けの長期自律最適化フレームワークです。Hypothesis Tree Refinement(HTR)と呼ばれる永続的な仮説ツリー構造を核に、AIが自律的に研究や最適化を進める仕組みを実現しています。従来のClaude CodeやCodexといったツールと比較して、同一のcompute予算で平均2.5倍以上のheld-out性能向上を達成した点が大きな特徴です。
📑目次
Arborとは?Hypothesis Tree Refinement (HTR) の基本概念
Arborの中心となるのは、Hypothesis Tree Refinement(HTR)という手法です。これは、仮説をツリー構造で永続的に管理し、実験結果や証拠を蓄積しながら洗練していくアプローチです。単発のタスク実行ではなく、長期にわたって仮説を更新・伝播させることで、AIエージェントの自律性を高めます。arXiv論文(https://arxiv.org/abs/2606.11926)では、モデル訓練やデータ合成などのAutonomous Optimizationタスクでその有効性が示されています。
HTRの利点は、仮説と成果物をリンクさせ、洞察を蒸留して次に活かせる点にあります。これにより、コンテキストの喪失やreward hackingといった既存ツールの限界を克服します。
CoordinatorとExecutorの役割分離とworktree活用
Arborでは、CoordinatorとExecutorという2つの役割を明確に分離しています。Coordinatorは長期戦略を担当し、全体の仮説ツリーを管理します。一方、Executorは隔離されたworktree環境で実験を実行し、結果を安全にフィードバックします。この分離により、実験の失敗がシステム全体に悪影響を及ぼしにくく、安定した運用が可能になります。
GitHubリポジトリ(https://github.com/RUC-NLPIR/Arbor)では、worktreeを活用した実行例が公開されており、実際のセットアップ手順も確認できます。プロジェクトページ(https://ruc-nlpir.github.io/Arbor/)も参考になります。
失敗の蓄積・伝播と永続的仮説ツリーの仕組み
Arborの強みは、失敗を単なるエラーとして捨てるのではなく、制約として蓄積・伝播させる点です。仮説ツリーは永続的で、過去の失敗や証拠が次回の意思決定に反映されます。これにより、AIエージェントはより賢く戦略を調整し、長期的な最適化を実現します。
VentureBeatの報道でも、この仕組みがClaude CodeやCodexを上回る理由として取り上げられています。失敗の活用が、従来の散逸しやすいアプローチとの違いを生んでいます。
ベンチマーク結果:Claude Code/Codexとの比較と2.5倍向上の詳細
ベンチマークでは、ArborがClaude CodeやCodexに対して明確な優位性を示しました。同一compute予算下で、平均2.5倍以上のheld-out性能向上を記録しています。MLE-Bench LiteではGPT-5.5使用時に86.36%のAny Medalを達成し、比較対象の中で最も高いスコアです。
比較表は構成セクションのものを参照してください。長期戦略管理や失敗の活用でArborが優位です。
BrowseCompタスクでの改善事例(45.33% → 67.67%)
BrowseCompタスクでは、ベースラインの45.33%から67.67%への大幅改善が確認されました。このタスクはウェブブラウジングを伴う複雑な最適化を対象としており、HTRの仮説管理が効果を発揮した好例です。arXiv論文の詳細な実験結果で裏付けられています。
GitHubリポジトリとarXiv論文の公開内容
ArborはGitHub(https://github.com/RUC-NLPIR/Arbor)でコードが公開されており、arXiv論文(https://arxiv.org/abs/2606.11926)で理論的背景と評価結果が詳述されています。プロジェクトページ(https://ruc-nlpir.github.io/Arbor/)ではデモや追加資料も入手可能です。VentureBeat(https://venturebeat.com/orchestration/new-ai-optimization-framework-beats-claude-code-and-codex-by-2-5x-on-the-same-compute-budget)も実用的視点から報じています。
AIエージェント開発者への実践的示唆
AIエージェントを開発するエンジニアにとって、Arborは次世代のワークフロー設計に役立つ知見を提供します。Coordinator/Executor分離やHTRの導入により、長期タスクでの安定性と性能が向上します。まずはGitHubリポジトリをクローンしてローカル環境で試すことをおすすめします。
よくある質問(FAQ)
-
ArborはClaude CodeやCodexの代替ツールですか?
いいえ、Arborは既存ツールを補完・拡張するフレームワークです。CoordinatorとExecutorを組み合わせることで、Claude CodeやCodexの性能をさらに引き上げます。 -
Hypothesis Tree Refinement (HTR) はどのように仮説を管理しますか?
仮説をツリー構造で永続的に保持し、実験結果や証拠をリンクさせて洗練します。失敗も制約として蓄積されます。 -
CoordinatorとExecutorはどのように連携しますか?
Coordinatorが全体戦略を立案し、Executorが隔離worktreeで実験を実行。結果をツリーにフィードバックして連携します。 -
2.5倍の性能向上はどのタスクで確認されましたか?
Autonomous Optimizationタスク全般で平均2.5倍以上。MLE-Bench LiteやBrowseCompで具体的な数値が示されています。 -
MLE-Bench Liteでの86.36% Any Medalとは何を意味しますか?
任意のメダル獲得率を示し、比較対象の中で最高水準の成果を意味します。GPT-5.5との組み合わせで達成されました。
比較表
| 項目 | Claude Code / Codex | Arbor (HTR) |
|---|---|---|
| 長期戦略管理 | 限定的 | Coordinatorによる永続ツリー |
| 失敗の活用 | 散逸しやすい | 制約として蓄積・伝播 |
| held-out性能向上 | ベースライン | 平均2.5倍以上 |
| BrowseComp改善例 | – | 45.33% → 67.67% |
| 隔離実行環境 | 標準 | Executor worktree分離 |
出典: arXiv:2606.11926 (2026年6月)、VentureBeat報道、公式GitHubおよびプロジェクトページ(2026年6月時点)
関連記事:
- Boltz Bio、BoltzMol-1 / BoltzProt-1 をリリース — 創薬向け新モデル、Claude Code / Codex 統合対応
- MiniMax M3 リリース — 初のオープンウェイト frontier モデル(1M コンテキスト + ネイティブ multimodal + 59% SWE-Bench)
- Databricks、AI Agent向けメタハーネス「Omnigent」をオープンソース公開 — Claude Code / Codex横断でmulti-agent制御
まとめ
Arborは、Hypothesis Tree Refinementを活用した長期自律最適化フレームワークとして、AIエージェント開発に新たな可能性を開きます。CoordinatorとExecutorの分離、失敗の永続管理により、Claude CodeやCodexを大幅に上回る性能を実現しました。GitHubやarXivを通じてぜひ詳細を確認し、実際のプロジェクトに取り入れてみてください。
著者
krona23
IT業界20年以上の実務経験を持ち、日本国内有数のPVを誇る大規模Webサービスで事業部長・CTOを複数社で歴任。Windows/iOS/Android/Webと技術の変遷を経験し、現在はAIネイティブへの変革に注力。DevGENTでは、AIコードエディタ・自動化ツール・LLMの実践的な使い方を日英西3言語で発信中。








コメントを残す