MCCT-1K公開 — Claude Code 1,017本の完全軌跡データセットをHugging Faceで入手

Claude Codeの完全な動作軌跡を1,017本収録したデータセット「MCCT-1K」がHugging Faceで公開されました。研究者choucsan氏が作成したこのデータセットは、coding agentのツール使用、ファイル編集、推論過程をJSONL形式で詳細に記録しています。Code LLMの模倣学習や軌跡分析を目的とした研究者・開発者向けの一次資料です。

📑目次

Claude Code軌跡データセットとは
MCCT-1Kの主な統計と規模
収録されたツール使用内訳とカテゴリ分布
データセットの構造と利用方法
Code LLM開発者・研究者への活用例
ダウンロードとライセンス情報
類似データセットとの違い
よくある質問
まとめ

Claude Code軌跡データセットとは

Claude CodeはAnthropicが提供する自律的なコーディングエージェントです。ユーザーが自然言語で指示すると、ファイルの読み書きやシェルコマンドの実行、コードの編集を繰り返しながらタスクを完了します。MCCT-1Kは、この一連の動作を「軌跡」としてまとめたものです。各軌跡にはユーザーのタスク、複数ターンのメッセージ、ツールの呼び出しと結果、推論内容が含まれています。

従来のコード生成データセットは最終的なコードだけを記録していましたが、MCCT-1Kは中間過程まで含む点が特徴です。これにより、agentがどのようにツールを選択し、失敗から回復するかを分析できます。公式のHugging Faceページ（https://huggingface.co/datasets/choucsan/mimo-claude-code-traces-1k）で無料で入手可能です。

MCCT-1Kの主な統計と規模

MCCT-1Kは合計1,017本のトレースから構成されます。総イベント行数は15,046行、会話メッセージは11,995件に及びます。Assistantのツール呼び出しは5,271回、ツールの結果メッセージも同数です。ツール使用を含むトレースは859本、推論フィールドを持つトレースは全1,017本です。

記録された総ターン数は4,932、総記録時間は約20.5時間です。API利用コストの合計は163.89ドルで、ログに残ったトークン数は約1億2,723万トークン（入力8百万、キャッシュ読み込み1億1,700万、出力190万）でした。生成に使われたモデルはmimo-v2.5-proで、約400Mトークンが消費されています。

これらの数値は、2026年6月21日頃にHugging Faceにアップロードされた時点のものです。出典：Hugging Face Datasetsページ（2026年6月時点）。

収録されたツール使用内訳とカテゴリ分布

ツール使用の内訳を見ると、Bashコマンドの呼び出しが1,805回と最も多く、次いでRead（1,480回）、Write（919回）、Glob（381回）、Edit（339回）、Grep（163回）となっています。その他AgentやTodoWriteなどのツールを合わせると合計5,271回のツール呼び出しです。

カテゴリ分布はcode_generationが213本、algorithmsが157本、debuggingが162本、refactoringが126本と続きます。shell_devopsは70本、math_problemsは76本、supplementは75本、data_processingは58本、hf_traceは57本、api_integrationは23本です。

これらの分布から、コード生成とデバッグ、アルゴリズム問題に重点が置かれていることがわかります。表でまとめると以下の通りです。

カテゴリ	トレース数
code_generation	213
algorithms	157
debugging	162
refactoring	126
shell_devops	70
math_problems	76
supplement	75
data_processing	58
hf_trace	57
api_integration	23

出典：Hugging Face Datasets（https://huggingface.co/datasets/choucsan/mimo-claude-code-traces-1k、2026年6月時点）

データセットの構造と利用方法

データセットはsession/ディレクトリの下にalgorithms/、code_generation/、debugging/などのカテゴリ別サブディレクトリを持ちます。各.jsonlファイルが1つのトレースに対応し、user task、multi-turn message trace、tool schemas、reasoning、tool calls/outputs、metadataが格納されています。

利用者はこれをcode-agent distillation、SFT（教師あり微調整）、trajectory modeling、tool-use researchなどに活用できます。JSONL形式のため、Pythonのjsonlinesライブラリなどで簡単に読み込めます。公式ページから直接ダウンロード可能です。

Code LLM開発者・研究者への活用例

Code LLMの開発者はこのデータセットを使ってagentの行動パターンを学習させられます。例えば、ツール呼び出しの順序や、失敗時の回復戦略を分析することで、より堅牢なagentを構築できます。研究者は推論過程のフィールドを活用して、LLMがどのように問題を分解しているかを定量的に評価できます。

実際の利用例として、5,271回のツール呼び出しデータを用いた模倣学習や、20.5時間の記録時間を基にした時間効率の分析が考えられます。開発者は自前のagentと比較して、どのツールを多用しているか、どのカテゴリで苦戦しているかを明らかにできます。

ダウンロードとライセンス情報

MCCT-1KはHugging Face Datasets上で公開されており、無料でダウンロードできます。ライセンスはデータセットページで確認してください。X投稿（https://x.com/choucisa/status/2069997970670727205）でも公開が告知されています。

利用者は研究・非商用目的で活用することを想定した設計です。商用利用の可否はページのライセンス条項に従ってください。

類似データセットとの違い

既存のコード関連データセットは主に最終コードや単発の生成結果を記録しています。一方MCCT-1Kは、Claude Codeという実際のagentが複数ターンにわたってツールを使い、ファイルを編集し、推論を繰り返す完全な軌跡を提供します。

この点で、静的なコードスニペットではなく、動的なagent行動のデータとして差別化されています。ツール使用の詳細なログと推論フィールドの両方が揃っている点も強みです。

よくある質問

Q: MCCT-1Kは商用利用できますか？

ライセンスはHugging Faceのデータセットページで確認してください。研究目的での利用を想定した設計ですが、条項を必ず読んでください。

Q: データセットのサイズはどれくらいですか？

1,017本のJSONLファイル、総イベント行15,046行、約20.5時間の記録時間です。

Q: どのように読み込んで使えますか？

Pythonのjsonlinesやpandasで各.jsonlを読み、ツール呼び出しや推論フィールドを分析できます。

Q: 他のClaude Codeデータセットとの違いは何ですか？

完全なmulti-turn軌跡とツール使用ログ、推論過程を同時に提供する点が特徴です。

Q: 生成に使われたモデルは何ですか？

mimo-v2.5-pro（MiMo 1.02Tパラメータ MoEモデル）です。

Q: コストはどのくらいかかりましたか？

API利用コスト合計163.89ドル、ログトークン約1億2,723万トークンです。

関連記事:

まとめ

MCCT-1KはClaude Codeの動作を詳細に記録した1,017本の軌跡データセットです。ツール使用内訳やカテゴリ分布、完全なmulti-turnログを活用することで、Code LLMの研究やagent開発を加速できます。公式Hugging Faceページから今すぐ入手して、自身のプロジェクトに活用してください。

出典：Hugging Face（https://huggingface.co/datasets/choucsan/mimo-claude-code-traces-1k）、X投稿（https://x.com/choucisa/status/2069997970670727205）

著者

krona23

IT業界20年以上の実務経験を持ち、日本国内有数のPVを誇る大規模Webサービスで事業部長・CTOを複数社で歴任。Windows/iOS/Android/Webと技術の変遷を経験し、現在はAIネイティブへの変革に注力。DevGENTでは、AIコードエディタ・自動化ツール・LLMの実践的な使い方を日英西3言語で発信中。

DevGENT について →

📚 次に読む