Claude Codeの完全な動作軌跡を1,017本収録したデータセット「MCCT-1K」がHugging Faceで公開されました。研究者choucsan氏が作成したこのデータセットは、coding agentのツール使用、ファイル編集、推論過程をJSONL形式で詳細に記録しています。Code LLMの模倣学習や軌跡分析を目的とした研究者・開発者向けの一次資料です。
📑目次
Claude Code軌跡データセットとは
Claude CodeはAnthropicが提供する自律的なコーディングエージェントです。ユーザーが自然言語で指示すると、ファイルの読み書きやシェルコマンドの実行、コードの編集を繰り返しながらタスクを完了します。MCCT-1Kは、この一連の動作を「軌跡」としてまとめたものです。各軌跡にはユーザーのタスク、複数ターンのメッセージ、ツールの呼び出しと結果、推論内容が含まれています。
従来のコード生成データセットは最終的なコードだけを記録していましたが、MCCT-1Kは中間過程まで含む点が特徴です。これにより、agentがどのようにツールを選択し、失敗から回復するかを分析できます。公式のHugging Faceページ(https://huggingface.co/datasets/choucsan/mimo-claude-code-traces-1k)で無料で入手可能です。
MCCT-1Kの主な統計と規模
MCCT-1Kは合計1,017本のトレースから構成されます。総イベント行数は15,046行、会話メッセージは11,995件に及びます。Assistantのツール呼び出しは5,271回、ツールの結果メッセージも同数です。ツール使用を含むトレースは859本、推論フィールドを持つトレースは全1,017本です。
記録された総ターン数は4,932、総記録時間は約20.5時間です。API利用コストの合計は163.89ドルで、ログに残ったトークン数は約1億2,723万トークン(入力8百万、キャッシュ読み込み1億1,700万、出力190万)でした。生成に使われたモデルはmimo-v2.5-proで、約400Mトークンが消費されています。
これらの数値は、2026年6月21日頃にHugging Faceにアップロードされた時点のものです。出典:Hugging Face Datasetsページ(2026年6月時点)。
収録されたツール使用内訳とカテゴリ分布
ツール使用の内訳を見ると、Bashコマンドの呼び出しが1,805回と最も多く、次いでRead(1,480回)、Write(919回)、Glob(381回)、Edit(339回)、Grep(163回)となっています。その他AgentやTodoWriteなどのツールを合わせると合計5,271回のツール呼び出しです。
カテゴリ分布はcode_generationが213本、algorithmsが157本、debuggingが162本、refactoringが126本と続きます。shell_devopsは70本、math_problemsは76本、supplementは75本、data_processingは58本、hf_traceは57本、api_integrationは23本です。
これらの分布から、コード生成とデバッグ、アルゴリズム問題に重点が置かれていることがわかります。表でまとめると以下の通りです。
| カテゴリ | トレース数 |
|---|---|
| code_generation | 213 |
| algorithms | 157 |
| debugging | 162 |
| refactoring | 126 |
| shell_devops | 70 |
| math_problems | 76 |
| supplement | 75 |
| data_processing | 58 |
| hf_trace | 57 |
| api_integration | 23 |
出典:Hugging Face Datasets(https://huggingface.co/datasets/choucsan/mimo-claude-code-traces-1k、2026年6月時点)
データセットの構造と利用方法
データセットはsession/ディレクトリの下にalgorithms/、code_generation/、debugging/などのカテゴリ別サブディレクトリを持ちます。各.jsonlファイルが1つのトレースに対応し、user task、multi-turn message trace、tool schemas、reasoning、tool calls/outputs、metadataが格納されています。
利用者はこれをcode-agent distillation、SFT(教師あり微調整)、trajectory modeling、tool-use researchなどに活用できます。JSONL形式のため、Pythonのjsonlinesライブラリなどで簡単に読み込めます。公式ページから直接ダウンロード可能です。
Code LLM開発者・研究者への活用例
Code LLMの開発者はこのデータセットを使ってagentの行動パターンを学習させられます。例えば、ツール呼び出しの順序や、失敗時の回復戦略を分析することで、より堅牢なagentを構築できます。研究者は推論過程のフィールドを活用して、LLMがどのように問題を分解しているかを定量的に評価できます。
実際の利用例として、5,271回のツール呼び出しデータを用いた模倣学習や、20.5時間の記録時間を基にした時間効率の分析が考えられます。開発者は自前のagentと比較して、どのツールを多用しているか、どのカテゴリで苦戦しているかを明らかにできます。
ダウンロードとライセンス情報
MCCT-1KはHugging Face Datasets上で公開されており、無料でダウンロードできます。ライセンスはデータセットページで確認してください。X投稿(https://x.com/choucisa/status/2069997970670727205)でも公開が告知されています。
利用者は研究・非商用目的で活用することを想定した設計です。商用利用の可否はページのライセンス条項に従ってください。
類似データセットとの違い
既存のコード関連データセットは主に最終コードや単発の生成結果を記録しています。一方MCCT-1Kは、Claude Codeという実際のagentが複数ターンにわたってツールを使い、ファイルを編集し、推論を繰り返す完全な軌跡を提供します。
この点で、静的なコードスニペットではなく、動的なagent行動のデータとして差別化されています。ツール使用の詳細なログと推論フィールドの両方が揃っている点も強みです。
よくある質問
関連記事:
- Claude Opus 4.8 リリース:Claude CodeのDynamic Workflowsと高速・低コスト化を解説
- Claude Code 向けセキュリティスキル 71 種 + 681 パターンが GitHub で公開
- Claude DesignとClaude Codeの双方向連携強化 /design-sync リリース
まとめ
MCCT-1KはClaude Codeの動作を詳細に記録した1,017本の軌跡データセットです。ツール使用内訳やカテゴリ分布、完全なmulti-turnログを活用することで、Code LLMの研究やagent開発を加速できます。公式Hugging Faceページから今すぐ入手して、自身のプロジェクトに活用してください。
出典:Hugging Face(https://huggingface.co/datasets/choucsan/mimo-claude-code-traces-1k)、X投稿(https://x.com/choucisa/status/2069997970670727205)
著者
krona23
IT業界20年以上の実務経験を持ち、日本国内有数のPVを誇る大規模Webサービスで事業部長・CTOを複数社で歴任。Windows/iOS/Android/Webと技術の変遷を経験し、現在はAIネイティブへの変革に注力。DevGENTでは、AIコードエディタ・自動化ツール・LLMの実践的な使い方を日英西3言語で発信中。












コメントを残す