Claude Codeの完全な動作軌跡を1,017本収録したデータセット「MCCT-1K」がHugging Faceで公開されました。研究者choucsan氏が作成したこのデータセットは、coding agentのツール使用、ファイル編集、推論過程をJSONL形式で詳細に記録しています。Code LLMの模倣学習や軌跡分析を目的とした研究者・開発者向けの一次資料です。

📑目次
  1. Claude Code軌跡データセットとは
  2. MCCT-1Kの主な統計と規模
  3. 収録されたツール使用内訳とカテゴリ分布
  4. データセットの構造と利用方法
  5. Code LLM開発者・研究者への活用例
  6. ダウンロードとライセンス情報
  7. 類似データセットとの違い
  8. よくある質問
  9. まとめ

Claude Code軌跡データセットとは

Claude CodeはAnthropicが提供する自律的なコーディングエージェントです。ユーザーが自然言語で指示すると、ファイルの読み書きやシェルコマンドの実行、コードの編集を繰り返しながらタスクを完了します。MCCT-1Kは、この一連の動作を「軌跡」としてまとめたものです。各軌跡にはユーザーのタスク、複数ターンのメッセージ、ツールの呼び出しと結果、推論内容が含まれています。

従来のコード生成データセットは最終的なコードだけを記録していましたが、MCCT-1Kは中間過程まで含む点が特徴です。これにより、agentがどのようにツールを選択し、失敗から回復するかを分析できます。公式のHugging Faceページ(https://huggingface.co/datasets/choucsan/mimo-claude-code-traces-1k)で無料で入手可能です。


MCCT-1Kの主な統計と規模

MCCT-1Kは合計1,017本のトレースから構成されます。総イベント行数は15,046行、会話メッセージは11,995件に及びます。Assistantのツール呼び出しは5,271回、ツールの結果メッセージも同数です。ツール使用を含むトレースは859本、推論フィールドを持つトレースは全1,017本です。

記録された総ターン数は4,932、総記録時間は約20.5時間です。API利用コストの合計は163.89ドルで、ログに残ったトークン数は約1億2,723万トークン(入力8百万、キャッシュ読み込み1億1,700万、出力190万)でした。生成に使われたモデルはmimo-v2.5-proで、約400Mトークンが消費されています。

これらの数値は、2026年6月21日頃にHugging Faceにアップロードされた時点のものです。出典:Hugging Face Datasetsページ(2026年6月時点)。


収録されたツール使用内訳とカテゴリ分布

ツール使用の内訳を見ると、Bashコマンドの呼び出しが1,805回と最も多く、次いでRead(1,480回)、Write(919回)、Glob(381回)、Edit(339回)、Grep(163回)となっています。その他AgentやTodoWriteなどのツールを合わせると合計5,271回のツール呼び出しです。

カテゴリ分布はcode_generationが213本、algorithmsが157本、debuggingが162本、refactoringが126本と続きます。shell_devopsは70本、math_problemsは76本、supplementは75本、data_processingは58本、hf_traceは57本、api_integrationは23本です。

これらの分布から、コード生成とデバッグ、アルゴリズム問題に重点が置かれていることがわかります。表でまとめると以下の通りです。

カテゴリ トレース数
code_generation 213
algorithms 157
debugging 162
refactoring 126
shell_devops 70
math_problems 76
supplement 75
data_processing 58
hf_trace 57
api_integration 23

出典:Hugging Face Datasets(https://huggingface.co/datasets/choucsan/mimo-claude-code-traces-1k、2026年6月時点)


データセットの構造と利用方法

データセットはsession/ディレクトリの下にalgorithms/、code_generation/、debugging/などのカテゴリ別サブディレクトリを持ちます。各.jsonlファイルが1つのトレースに対応し、user task、multi-turn message trace、tool schemas、reasoning、tool calls/outputs、metadataが格納されています。

利用者はこれをcode-agent distillation、SFT(教師あり微調整)、trajectory modeling、tool-use researchなどに活用できます。JSONL形式のため、Pythonのjsonlinesライブラリなどで簡単に読み込めます。公式ページから直接ダウンロード可能です。


Code LLM開発者・研究者への活用例

Code LLMの開発者はこのデータセットを使ってagentの行動パターンを学習させられます。例えば、ツール呼び出しの順序や、失敗時の回復戦略を分析することで、より堅牢なagentを構築できます。研究者は推論過程のフィールドを活用して、LLMがどのように問題を分解しているかを定量的に評価できます。

実際の利用例として、5,271回のツール呼び出しデータを用いた模倣学習や、20.5時間の記録時間を基にした時間効率の分析が考えられます。開発者は自前のagentと比較して、どのツールを多用しているか、どのカテゴリで苦戦しているかを明らかにできます。


ダウンロードとライセンス情報

MCCT-1KはHugging Face Datasets上で公開されており、無料でダウンロードできます。ライセンスはデータセットページで確認してください。X投稿(https://x.com/choucisa/status/2069997970670727205)でも公開が告知されています。

利用者は研究・非商用目的で活用することを想定した設計です。商用利用の可否はページのライセンス条項に従ってください。


類似データセットとの違い

既存のコード関連データセットは主に最終コードや単発の生成結果を記録しています。一方MCCT-1Kは、Claude Codeという実際のagentが複数ターンにわたってツールを使い、ファイルを編集し、推論を繰り返す完全な軌跡を提供します。

この点で、静的なコードスニペットではなく、動的なagent行動のデータとして差別化されています。ツール使用の詳細なログと推論フィールドの両方が揃っている点も強みです。


よくある質問

Q: MCCT-1Kは商用利用できますか?

ライセンスはHugging Faceのデータセットページで確認してください。研究目的での利用を想定した設計ですが、条項を必ず読んでください。

Q: データセットのサイズはどれくらいですか?

1,017本のJSONLファイル、総イベント行15,046行、約20.5時間の記録時間です。

Q: どのように読み込んで使えますか?

Pythonのjsonlinesやpandasで各.jsonlを読み、ツール呼び出しや推論フィールドを分析できます。

Q: 他のClaude Codeデータセットとの違いは何ですか?

完全なmulti-turn軌跡とツール使用ログ、推論過程を同時に提供する点が特徴です。

Q: 生成に使われたモデルは何ですか?

mimo-v2.5-pro(MiMo 1.02Tパラメータ MoEモデル)です。

Q: コストはどのくらいかかりましたか?

API利用コスト合計163.89ドル、ログトークン約1億2,723万トークンです。


関連記事:

まとめ

MCCT-1KはClaude Codeの動作を詳細に記録した1,017本の軌跡データセットです。ツール使用内訳やカテゴリ分布、完全なmulti-turnログを活用することで、Code LLMの研究やagent開発を加速できます。公式Hugging Faceページから今すぐ入手して、自身のプロジェクトに活用してください。

出典:Hugging Face(https://huggingface.co/datasets/choucsan/mimo-claude-code-traces-1k)、X投稿(https://x.com/choucisa/status/2069997970670727205)

krona23

著者

krona23

IT業界20年以上の実務経験を持ち、日本国内有数のPVを誇る大規模Webサービスで事業部長・CTOを複数社で歴任。Windows/iOS/Android/Webと技術の変遷を経験し、現在はAIネイティブへの変革に注力。DevGENTでは、AIコードエディタ・自動化ツール・LLMの実践的な使い方を日英西3言語で発信中。

DevGENT について →

コメントを残す

Trending

DevGENTをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む