先日、筆者は業務で「Google Workspace の共有ドライブに保存したファイルの所有者は誰になるか」を ChatGPT (GPT-4o, 2026-05 時点) と Gemini (2.5 Pro) の両方に聞いた。ChatGPT は「作成者が所有者になる」、Gemini は「組織が所有者になる」と返してきた。真逆だ。
結論から言う。複数の AI に同じ質問をして回答が割れたら、どちらも疑って一次ソース(公式ドキュメント・公式ヘルプ)に戻るのが唯一の正解である。AI の回答を「多数決」で決めてはいけない。
なぜ AI ごとに回答が食い違うのか
原因は3層に分かれる。
第一に、訓練データの収集時期と範囲が異なる。ChatGPT と Gemini ではクロール対象の Web ページ群が違い、学習のカットオフ時期もずれている。2025年に仕様変更があったサービスについて、片方だけが変更前の古い情報で回答を組み立てる。こうした食い違いは構造的に避けられない。
第二に、推論時の確率的な揺れがある。大規模言語モデル(LLM)はトークンの確率分布から次の単語を選ぶ仕組みだ。OpenAI の技術文書によれば、temperature を 0 に設定しても浮動小数点の丸め誤差で出力は変わりうる。同じモデル・同じプロンプトでも毎回同一の回答が返るとは限らない。
第三が、モデルごとの得意領域の偏りだ。2026年2月に MIT が公表した研究(Sharma et al.)では、ChatGPT・Gemini・Grok・Meta AI・DeepSeek の5モデルに同一の健康相談を投げた結果、正確性に大きなばらつきが出た。Grok は回答の58%に問題が指摘されている。得意領域が違えば、同じ質問でも精度は変わる。当然の帰結だ。
矛盾を仕分ける判定フロー
筆者が SIer 時代に叩き込まれた障害切り分けの考え方を、AI 回答の検証に転用した手順を示す。
ステップ1: 回答から「事実主張」だけを抜き出す
AI の出力には事実・推測・感想が混在している。まず検証可能な事実の部分だけを箇条書きにする。先の例なら「共有ドライブのファイル所有者=作成者」と「共有ドライブのファイル所有者=組織」。この2つが矛盾していると特定するのが出発点だ。感想や一般論は検証対象から外す。
ステップ2: 一次ソースで裏取りする
矛盾した事実主張それぞれについて、公式ドキュメントを当たる。Google Workspace の例ならGoogle 管理者ヘルプが一次ソースにあたる。回答は明確で、「共有ドライブ内のファイルは個人ではなく組織が所有する」。Gemini が正解で、ChatGPT はマイドライブの仕様と混同していたと判断できる。
ステップ3: 誤答の原因を推定する
ChatGPT の誤答は、共有ドライブ導入前(2019年以前)の Google ドライブ仕様と混同した可能性が高い。訓練データに古い解説記事が大量に含まれていれば、こうした誤答は構造的に発生する。原因を推定しておくと、同じカテゴリの質問で再び騙されるリスクを減らせる。
SIer 時代、本番障害のログで UTC と JST のタイムスタンプが混在していて原因特定が6時間遅れた経験がある。「画面に表示された情報をそのまま信じない」は、AI が相手でも変わらない鉄則だ。
公式ドキュメントがない領域ではどうするか
主観的な問い(「この文章は自然な日本語か」など)や、リリース直後でドキュメントが追いついていない機能では、一次ソースが存在しないケースもある。
次善策は、AI に根拠の URL を明示させることだ。「その回答の根拠となる公式ページの URL を示してほしい」と追加で聞く。Claude (claude-sonnet-4-6, 2026-05 時点) は引用元を添える傾向があるが、ChatGPT は実在しない URL を生成する場合がある。提示された URL をブラウザで開いて実在を確認する。これだけで誤情報の大半は弾ける。
それでも判断がつかない場合は、質問を分解して粒度を下げる。「Google Workspace の共有ドライブのファイル所有者は?」ではなく「共有ドライブでファイルを削除した場合、ゴミ箱はどこに入るか」「メンバーが組織を離れた場合、そのメンバーが作成したファイルはどうなるか」と具体化する。粒度が下がるほど AI の回答は収束しやすく、ズレが検出しやすくなる。
※ 本記事の検証は筆者の環境(macOS 15.5 / Chrome 126 / 各サービスの有料プラン)で2026年5月に実施した。モデルのアップデートで挙動が変わる可能性はある。
FAQ
AI を3つ使って多数決を取れば正解が分かる?
分からない。訓練データの出所が重複していれば、3モデルとも同じ誤答を返す可能性がある。MIT の研究でも、5モデル中4モデルが同一の誤った回答を返したケースが報告されている。多数決ではなく一次ソースでの裏取りが必要だ。
ChatGPT・Claude・Gemini のうちどれが一番正確?
質問の分野で変わる。2026年5月時点ではコーディングと論理構成で Claude、リアルタイム検索統合で ChatGPT、Google サービス連携で Gemini が強い傾向にある。全分野で最も正確なモデルは存在しない。
AI が自信満々に断定していたら信頼していい?
いけない。LLM は確率的にもっともらしいトークン列を生成する仕組みであり、「自信がある」という内部状態は持っていない。断定口調で誤答を返すのは仕様上の正常な挙動だ。
片方の AI に「もう片方はこう言ったけど正しい?」と聞くのは有効?
限定的に有効である。Claude に「ChatGPT は A と言い、Gemini は B と言った。公式ドキュメントに基づいて判定してほしい」と聞くと、引用付きで回答する場合がある。ただし引用自体の正確性も検証が必要なため、最終確認は人間が一次ソースを開くステップを省略できない。
参考文献
- Study: AI chatbots provide less-accurate information to vulnerable users — MIT News, 2026年2月
- 共有ドライブの概要 — Google Workspace 管理者ヘルプ
- Text generation — API Reference — OpenAI Platform Documentation
- Why Do AI Models Give Different Answers to the Same Question? — EverTune





