バイドゥが2026年6月に公開したローカルOCRモデル「Unlimited OCR」は、数十ページのPDFを1回の処理で扱える点が特徴です。arXiv論文2606.23050と公式GitHubリポジトリに基づき、技術仕様と利用手順をまとめます。

📑目次
  1. Unlimited OCRの概要と背景
  2. 主要な技術的特徴と性能
  3. インストールと推論の方法(Transformers / vLLM / SGLang)
  4. PDF・複数ページ文書への対応手順
  5. 商用利用とライセンス
  6. ベンチマークとSOTA性能
  7. 制限事項と注意点
  8. よくある質問 (FAQ)
  9. まとめ

Unlimited OCRの概要と背景

バイドゥの研究チームが開発したUnlimited OCRは、DeepSeek-OCRを基盤に拡張したエンドツーエンドのOCRモデルです。従来のOCRツールでは複数ページのPDFを分割して処理する必要がありましたが、このモデルは長文書の解析を一括で行えます。arXivの論文(https://arxiv.org/abs/2606.23050)でアーキテクチャが公開されており、商用利用を視野に入れたMITライセンスで提供されています。GitHub(https://github.com/baidu/Unlimited-OCR)では推論コードも公開されています。


主要な技術的特徴と性能

モデルは合計3Bパラメータで、MoE構造により1トークンあたり約500Mのパラメータが活性化します。DeepEncoderが1024×1024のページ画像を256のビジュアルトークンに圧縮し、16倍の効率化を実現しています。R-SWA(Reference Sliding Window Attention)デコーダにより、KVキャッシュを平坦に保ち、長文出力でも安定した推論が可能です。シングルページ向けの「Gundam」モードと、複数ページ・PDF向けの「base」モードを切り替えて使えます。

項目 仕様
パラメータ総数 3B (MoE, 活性 ~500M)
ビジュアルトークン圧縮 16倍 (1024×1024 → 256 tokens)
コンテキスト長 32k tokens以上
ライセンス MIT
対応形式 単一ページ、複数ページ、PDF

出典: arXiv 2606.23050 (2026-06), Baidu GitHub (2026-06)


インストールと推論の方法(Transformers / vLLM / SGLang)

モデルはHugging Face(https://huggingface.co/baidu/Unlimited-OCR)とModelScope(https://modelscope.cn/models/PaddlePaddle/Unlimited-OCR)から入手できます。GitHubリポジトリにはTransformers、vLLM、SGLangそれぞれの推論例が用意されています。vLLM対応はコミュニティの貢献により追加されました。ローカル環境で実行する場合、Hugging Faceのモデルカードに従って重みをダウンロードし、提供されたスクリプトを実行します。


PDF・複数ページ文書への対応手順

PDFを扱う場合はページごとに画像へ変換した後、baseモードで一括処理します。モデルはチャンク分割なしで長文書の解析をサポートしており、R-SWAによりKVキャッシュの肥大化を抑えています。公式GitHubのinference例では、PDFを画像列に変換する前処理と、結果の構造化出力までがサンプルコードで示されています。実際の運用では、ページ数の多い文書でも1回の呼び出しで完結します。


商用利用とライセンス

MITライセンスにより、商用利用、改変、再配布が可能です。重みはHugging FaceとModelScopeで公開されており、企業での内部ツール組み込みやSaaSへの統合も許可されています。論文著者らはローカル環境でのプライバシー保護を重視したユースケースを想定しています。


ベンチマークとSOTA性能

エンドツーエンドの文書解析ベンチマークでSOTAを達成しています。長文書の解析精度が高く、従来手法で必要だったチャンク分割の工程を省略できる点が評価されています。公式リポジトリでは具体的なベンチマークスコアが追記される予定です。


制限事項と注意点

モデルはローカル推論を前提としており、GPUメモリ要件は3B規模でも一定のVRAMを必要とします。PDFのレイアウトが複雑な場合は前処理で画像品質を確保する必要があります。vLLMやSGLangの利用時は各フレームワークのバージョン互換性を確認してください。商用利用時はライセンス条文を再確認し、出力結果の正確性を人間が検証する運用が推奨されます。


よくある質問 (FAQ)

Q: Unlimited OCRは無料で使えますか?

はい。モデル重みはHugging FaceとModelScopeで無料公開されており、MITライセンスで商用利用も可能です。

Q: 数十ページのPDFを本当に1回で処理できますか?

はい。baseモードで複数ページを一括扱いでき、チャンク分割なしで長文書解析が可能です。

Q: インストールはどのように行いますか?

GitHubリポジトリのREADMEに従い、TransformersまたはvLLMの環境を用意してモデルをダウンロードします。

Q: 商用サービスに組み込めますか?

MITライセンスのため可能です。ただし出力の正確性確認は運用側で実施してください。

Q: 他のOCRツールとの違いは何ですか?

長文書のend-to-end処理とR-SWAによる効率的なKVキャッシュ管理が特徴です。

Q: GPUは必須ですか?

高速推論にはGPUが推奨されますが、CPU環境でも動作します。vLLM利用時はGPUが有利です。


関連記事:

まとめ

Unlimited OCRはローカルで高性能なOCR処理を可能にするモデルです。PDF対応と商用ライセンスの両立により、開発者や企業にとって実用的な選択肢となります。詳細はarXiv論文と公式GitHubを確認してください。

関連する新しい記事:

krona23

著者

krona23

IT業界20年以上の実務経験を持ち、日本国内有数のPVを誇る大規模Webサービスで事業部長・CTOを複数社で歴任。Windows/iOS/Android/Webと技術の変遷を経験し、現在はAIネイティブへの変革に注力。DevGENTでは、AIコードエディタ・自動化ツール・LLMの実践的な使い方を日英西3言語で発信中。

DevGENT について →

コメントを残す

Trending

DevGENTをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む