バイドゥが2026年6月に公開したローカルOCRモデル「Unlimited OCR」は、数十ページのPDFを1回の処理で扱える点が特徴です。arXiv論文2606.23050と公式GitHubリポジトリに基づき、技術仕様と利用手順をまとめます。
📑目次
Unlimited OCRの概要と背景
バイドゥの研究チームが開発したUnlimited OCRは、DeepSeek-OCRを基盤に拡張したエンドツーエンドのOCRモデルです。従来のOCRツールでは複数ページのPDFを分割して処理する必要がありましたが、このモデルは長文書の解析を一括で行えます。arXivの論文(https://arxiv.org/abs/2606.23050)でアーキテクチャが公開されており、商用利用を視野に入れたMITライセンスで提供されています。GitHub(https://github.com/baidu/Unlimited-OCR)では推論コードも公開されています。
主要な技術的特徴と性能
モデルは合計3Bパラメータで、MoE構造により1トークンあたり約500Mのパラメータが活性化します。DeepEncoderが1024×1024のページ画像を256のビジュアルトークンに圧縮し、16倍の効率化を実現しています。R-SWA(Reference Sliding Window Attention)デコーダにより、KVキャッシュを平坦に保ち、長文出力でも安定した推論が可能です。シングルページ向けの「Gundam」モードと、複数ページ・PDF向けの「base」モードを切り替えて使えます。
| 項目 | 仕様 |
|---|---|
| パラメータ総数 | 3B (MoE, 活性 ~500M) |
| ビジュアルトークン圧縮 | 16倍 (1024×1024 → 256 tokens) |
| コンテキスト長 | 32k tokens以上 |
| ライセンス | MIT |
| 対応形式 | 単一ページ、複数ページ、PDF |
出典: arXiv 2606.23050 (2026-06), Baidu GitHub (2026-06)
インストールと推論の方法(Transformers / vLLM / SGLang)
モデルはHugging Face(https://huggingface.co/baidu/Unlimited-OCR)とModelScope(https://modelscope.cn/models/PaddlePaddle/Unlimited-OCR)から入手できます。GitHubリポジトリにはTransformers、vLLM、SGLangそれぞれの推論例が用意されています。vLLM対応はコミュニティの貢献により追加されました。ローカル環境で実行する場合、Hugging Faceのモデルカードに従って重みをダウンロードし、提供されたスクリプトを実行します。
PDF・複数ページ文書への対応手順
PDFを扱う場合はページごとに画像へ変換した後、baseモードで一括処理します。モデルはチャンク分割なしで長文書の解析をサポートしており、R-SWAによりKVキャッシュの肥大化を抑えています。公式GitHubのinference例では、PDFを画像列に変換する前処理と、結果の構造化出力までがサンプルコードで示されています。実際の運用では、ページ数の多い文書でも1回の呼び出しで完結します。
商用利用とライセンス
MITライセンスにより、商用利用、改変、再配布が可能です。重みはHugging FaceとModelScopeで公開されており、企業での内部ツール組み込みやSaaSへの統合も許可されています。論文著者らはローカル環境でのプライバシー保護を重視したユースケースを想定しています。
ベンチマークとSOTA性能
エンドツーエンドの文書解析ベンチマークでSOTAを達成しています。長文書の解析精度が高く、従来手法で必要だったチャンク分割の工程を省略できる点が評価されています。公式リポジトリでは具体的なベンチマークスコアが追記される予定です。
制限事項と注意点
モデルはローカル推論を前提としており、GPUメモリ要件は3B規模でも一定のVRAMを必要とします。PDFのレイアウトが複雑な場合は前処理で画像品質を確保する必要があります。vLLMやSGLangの利用時は各フレームワークのバージョン互換性を確認してください。商用利用時はライセンス条文を再確認し、出力結果の正確性を人間が検証する運用が推奨されます。
よくある質問 (FAQ)
関連記事:
- Arbor:Claude Code・Codexを2.5倍上回るHypothesis-Tree AI最適化フレームワーク【2026年】
- LLMで「AI臭い」技術文書を避ける10のルール集|技術書出版社代表公開のSKILL.md
- Boogu-Image-0.1とKrea 2で変わるAIグラビア制作 — Z-Imageへの挑戦
まとめ
Unlimited OCRはローカルで高性能なOCR処理を可能にするモデルです。PDF対応と商用ライセンスの両立により、開発者や企業にとって実用的な選択肢となります。詳細はarXiv論文と公式GitHubを確認してください。
関連する新しい記事:
- VRAM 最大モデル卒業 — whichllm で RTX 4060 Ti 16GB の最適ローカル LLM 選び – This published update adds current operational context for 数十ページのPDFを1回で処理できるローカルOCR「Unlimited OCR」バイドゥが無料公開、商用利用も可能.
- 低VRAMでOpus級性能のオープンソースAI GLM-5.2とGemma 4 12B Coder徹底解説 – This published update adds current operational context for 数十ページのPDFを1回で処理できるローカルOCR「Unlimited OCR」バイドゥが無料公開、商用利用も可能.
- RAGの限界を超えるAgent Search:LangGraphで知識を運用する実践 – This published update adds current operational context for 数十ページのPDFを1回で処理できるローカルOCR「Unlimited OCR」バイドゥが無料公開、商用利用も可能.
- 人間をLLMのように活用する「Human LLM」実践ガイド — コスト0円で高品質応答を得る手法 – This published update adds current operational context for 数十ページのPDFを1回で処理できるローカルOCR「Unlimited OCR」バイドゥが無料公開、商用利用も可能.
著者
krona23
IT業界20年以上の実務経験を持ち、日本国内有数のPVを誇る大規模Webサービスで事業部長・CTOを複数社で歴任。Windows/iOS/Android/Webと技術の変遷を経験し、現在はAIネイティブへの変革に注力。DevGENTでは、AIコードエディタ・自動化ツール・LLMの実践的な使い方を日英西3言語で発信中。















コメントを残す