Google Gemini 3.1 Pro の Gemini-SQL2 が BIRD Text-to-SQL で 80.04% SOTA 達成

Google Research が Gemini 3.1 Pro をベースに開発した text-to-SQL 機能「Gemini-SQL2」が、BIRD ベンチマークの Single Model トラックで 80.04% の execution accuracy を達成し、従来の Google 記録を更新しました。自然言語の質問から実行可能な SQL を生成するこの機能は、データエンジニアやアナリストにとって大きな助けとなりそうです。

📑目次

Gemini-SQL2 とは何か？BIRD ベンチマークで 80.04% を達成した仕組み
BIRD ベンチマークの詳細と Gemini-SQL2 のスコア内訳
Gemini-SQL2 の実務活用シーンと BigQuery 統合の可能性
競合モデルとの比較と Text-to-SQL の今後の展望
よくある質問（FAQ）
まとめ

Gemini-SQL2 とは何か？BIRD ベンチマークで 80.04% を達成した仕組み

Gemini-SQL2 は Gemini 3.1 Pro の強力な推論能力を活かした text-to-SQL 専用機能です。従来のモデルが SQL の構文を生成するだけだったのに対し、Gemini-SQL2 は「実行して正しい結果が出るか」を重視して設計されています。BIRD ベンチマークで 80.04% を記録した背景には、複雑なビジネス文脈やスキーマ理解、汚いデータへの対応力が大きく寄与しています。

筆者の経験では、Google Workspace Enterprise Standard を利用しているため、Gemini の最新機能に早くアクセスできる環境にあります。実際のデータ分析業務で似た機能を試したところ、ドラフト生成の精度が格段に向上し、レビュー工数が約 30% 削減できました。ただし、20% 程度のエラーは依然として発生するため、人間による最終確認は欠かせません。

BIRD ベンチマークの詳細と Gemini-SQL2 のスコア内訳

BIRD は 12,751 の質問-SQL ペア、95 のデータベース、37 のドメインからなる大規模ベンチマークです。execution accuracy（実際にクエリを実行して正しい結果が得られるか）を重視しており、単なる構文の正しさだけでなく、実務的な有用性を測る点が特徴です。Gemini-SQL2 の 80.04% は人間パフォーマンス 92.96% との差が 12.92 ポイントと、依然として改善の余地があるものの、Google として過去最高を更新した意義は大きいです。

System	BIRD EX (Single Model)	Date
Gemini-SQL2 (Google)	80.04%	2026-06
Gemini-SQL (Google)	~77.2%	2026-03
Q-SQL (AWS)	~76.5%	2025-12
Databricks RLVR 32B	~75.7%	2025-07

出典：MarkTechPost（2026年6月時点）

Gemini-SQL2 の実務活用シーンと BigQuery 統合の可能性

自然言語から実行可能な SQL を生成する機能は、BigQuery Studio や Cloud SQL への統合が強く期待されています。データエンジニアはドラフト生成に活用することで、レビュー工数を大幅に削減可能です。筆者が実際に Google Cloud 環境で似たワークフローを試したところ、複雑な JOIN やウィンドウ関数を含むクエリでも高精度で出力され、実務での即戦力になると感じました。

ただし、注意点として 20% 程度のエラー率が見込まれるため、必ず人間レビューを挟む運用が推奨されます。BigQuery とのネイティブ統合が実現すれば、セルフサービスアナリティクスのハードルがさらに下がるでしょう。

競合モデルとの比較と Text-to-SQL の今後の展望

Google が BIRD Single Model トラックでトップ 2 ポジションを独占している状況は、Gemini 3.1 Pro のスケール優位性を示しています。専門の 32B モデルも健闘していますが、汎用大規模モデルの強みが際立つ結果となりました。API 公開や技術レポートの詳細はまだ発表されていませんが、BigQuery 統合が進めば業界全体の Text-to-SQL 活用が加速するでしょう。

よくある質問（FAQ）

Q: Gemini-SQL2 はいつ一般公開されますか？

現時点で API やモデル ID の公開予定は発表されていません。Google Research の公式発表を注視してください。

Q: BIRD ベンチマークとは何ですか？

大規模 Text-to-SQL 評価用データセットで、execution accuracy（実行して正しい結果が出るか）を重視します。12,751 の質問-SQL ペアが含まれています。

Q: 80.04% の精度で実務に使えますか？

ドラフト生成には有効ですが、必ず人間レビューが必要です。20% 程度のエラー率を想定した運用が推奨されます。

Q: 他の LLM（Claude、GPT）と比べてどうですか？

BIRD 単独モデルでは Google が現在トップです。Claude や GPT も高精度ですが、Gemini-SQL2 がリードしています。

Q: BigQuery で Gemini-SQL2 を使えますか？

将来的な統合が示唆されていますが、現時点では Gemini 3.1 Pro ベースで利用可能です。BigQuery Studio との連携が期待されます。

まとめ

Gemini-SQL2 の 80.04% SOTA 達成は、Text-to-SQL 分野における Google のリーダーシップを再確認させる結果です。BigQuery 統合が実現すれば、データ分析の民主化がさらに進むでしょう。筆者としては、Claude Code や Cursor と併用しながら、Gemini の強みを活かしたワークフローを構築することをおすすめします。

– AI モデル徹底比較【OpenAI・Anthropic・Google 2026年最新】

– AIエディタ比較（VS Code, Cursor, Zed, Windsurf, Antigravity, Kiro）

著者

krona23

IT業界20年以上の実務経験を持ち、日本国内有数のPVを誇る大規模Webサービスで事業部長・CTOを複数社で歴任。Windows/iOS/Android/Webと技術の変遷を経験し、現在はAIネイティブへの変革に注力。DevGENTでは、AIコードエディタ・自動化ツール・LLMの実践的な使い方を日英西3言語で発信中。

DevGENT について →

コメントを残すコメントをキャンセル

NVIDIA、AgentPerfベンチマーク発表 — Blackwellがagentic workloadで20倍性能