先月、筆者はClaude(Opus 4.6)で業務メモを要約させた際、出力のなかに実在しないプロジェクト名が紛れ込んでいるのを見逃しかけた。文脈は自然で、言い回しも整っていた。だが名前が架空だった。AIの回答が正しく「見える」ことと、正しい「である」ことはまったく別の問題だと、あの瞬間に骨身で理解した。
2026年5月現在、Xのタイムラインでは「困ったらまずChatGPTに聞く」が完全に定着している。転職の相談、家庭の問題、法律の解釈、体調の不安。以前なら友人や専門家に打ち明けていた話を、AIチャットの入力欄に流し込む人が増え続けている。結論から言う。AIの回答には構造的な限界があり、その限界を把握しないまま行動に移すのは危険だ。
AIの回答が「自信満々でも間違っている」のは仕様上の挙動である
ChatGPTやClaudeは、入力テキストに対して「次に来る確率が高い単語」を順番に生成する仕組みで動いている。人間のように事実を記憶・照合しているわけではない。回答のトーンは常に堂々としているのに、中身が事実と異なるケースが構造的に発生する。これがハルシネーション(幻覚)だ。
頻度はタスクによって桁が違う。Suprmind社の2026年版AIハルシネーション統計レポートを見ると、手元に資料がある文書要約タスクではGemini 2.0 Flashのハルシネーション率が0.7%、GPT-4oが1.5%と低い。だが知識ベースの質問に切り替えると話が変わる。OpenAI自身が公開しているSimpleQAベンチマークで、推論特化モデルo3のハルシネーション率は51%に達した。半分以上の回答が事実と異なっている計算だ。
医療分野はさらに深刻である。2026年のBMJ Open監査では、AIチャットボットの健康相談回答のうち49.6%に何らかの問題が確認されたと報告されている。Suprmind社が端的に表現している。「最も危険なハルシネーションは明らかな誤りではなく、もっともらしいものだ」と。筆者のメモ要約での架空プロジェクト名も、まさにこのパターンに該当する。
OpenAIが2025年10月に「個別アドバイスの提供」を利用規約で制限した事実
2025年10月29日、OpenAIは利用規約を更新した。KJK法律事務所の解説によれば、「免許を要する個別アドバイス(法律・医療等)を、資格を持つ専門家の関与なしに提供すること」が明確に禁止されている。制限の対象は以下の通りだ。
- 法律:個別の契約書作成、個人の法的状況に応じた助言
- 医療:個人への症状診断、投薬の推奨
- 金融:個人の財務状況に合わせた投資・税務戦略
法律の一般解説や病気の基礎知識の説明は引き続き許容されている。OpenAI自身が「回答を唯一の真実として扱うべきではない」と利用規約に明記した形だ。Anthropicも2025年9月のUsage Policy更新で、法律・金融・雇用に関するAI利用を「高リスクユースケース」に分類し、人間の監督を必須要件に加えている。
SIer時代に筆者が経験した話と重なる。複数ベンダーの見積もりが近い金額だったのを「妥当な相場だろう」と判断しかけたが、実はどちらも同じ下請け業者の数字がベースだった。情報源が独立していなければ、一致しても信頼の根拠にはならない。AIの回答も同じ構造で、ChatGPTとClaudeに同じ質問を投げて類似の答えが返っても、訓練データが重複している以上「独立した裏取り」とは呼べない。
質問タイプ別の信頼度と「聞いていい領域」の線引き
AIに何を聞くかによって、回答の信頼度は根本的に変わる。質問タイプ別に判断基準を切り分けた。
| 質問タイプ | 信頼度 | 具体例 | 行動前に必要なこと |
|---|---|---|---|
| 事実検索型 | 高め | Pythonのコード、Wi-Fiの周波数帯の違い | 公式ドキュメントで照合 |
| 要約・整理型 | 中〜高 | 会議メモの箇条書き化、長文の3行要約 | 固有名詞と数値を原典と突き合わせ |
| 比較・分析型 | 中 | サービスAとBの料金比較、コードのリスク指摘 | 最新の公式ページで自分の目で検証 |
| 意思決定・判断型 | 低い | 転職すべきか、契約書にサインしていいか | 専門家への相談が必須。AIは壁打ち相手まで |
| 感情・人間関係型 | 低い | 上司への対応、家族との関係修復 | 思考の整理役としてのみ利用。最終判断は自分で |
信頼度が「高め」のタスクでも、AIの出力をコピペして終わりにすべきではない。筆者がClaude(Opus 4.6)で業務メモの要約を日常的に回しているなかでも、固有名詞の捏造は数回に1回は発生する。要約ですら原典照合が前提だ。
回答を行動に移す前の確認フロー
SIer時代、本番障害が起きたとき「サーバーか、ネットワークか、アプリか」を3段階で切り分けるのが鉄則だった。AIの回答を行動に移すかどうかにも、同じ発想の切り分けが有効だ。
Step 1:回答に出典があるか確認する
AIの回答に具体的なURL、文書名、条文番号が含まれているか。含まれていなければ「根拠となる公式ドキュメントのURLを示してほしい」と追加で聞く。出典を出せない回答は、その時点で信頼度が1段階下がると判断する。
Step 2:示された出典を自分のブラウザで開く
AIが返したURLやドキュメント名が実在するかを、直接開いて確認する。Columbia Journalism Reviewの調査によれば、ChatGPT Searchの引用エラー率は67%に達する。3件中2件は出典が間違っているか存在しない。URLを開かずに信用するのは論外である。
Step 3:その行動は「取り消し可能か」を自分に問う
回答に従って行動した結果、間違っていたときに元に戻せるか。ソフトウェアの設定変更なら戻せる。だが退職届の提出、契約書への署名、公的機関への届出は取り消しが効かない。不可逆な行動ほど、AIの回答だけを根拠にしてはならない。これは仕様の話ではなく、リスク管理の基本だ。
AIの回答は常に安定しているわけでもない。2026年3月〜4月にClaudeの性能が低下した際、筆者は同じプロンプトなのに出力構成が変わる経験を繰り返した。先週の正解が今週も正解である保証はどこにもない。「AIに聞いた」は行動の根拠にならない。「AIに聞いて、出典を確認して、不可逆性を評価した」がようやく判断の入り口に立てるラインだ。
FAQ
AIの回答にURLが含まれていれば、その回答は信頼できる?
URLが含まれていても安心はできない。Columbia Journalism Reviewの調査では、ChatGPT Searchが返す引用の67%にエラーがあった。URLが表示されていても、リンク切れや内容の不一致が頻繁に起きる。必ず自分でリンクを開いて中身を確認すべきだ。
ChatGPTの有料プラン(Plus/Pro)なら無料版よりハルシネーションが少ない?
モデル性能は上がるが、ハルシネーションがゼロになるわけではない。OpenAIのSimpleQAベンチマークでは、最上位モデルo3ですらハルシネーション率51%を記録している。プランのグレードにかかわらず、裏取りの手順は省略できない。
「回答をダブルチェックして」とAIに頼めば精度は上がる?
一定の効果はあるが、万能ではない。AIが自分の出力を再検証しても、同じ訓練データから推論する構造は変わらない。本当のダブルチェックは、AI外部の情報源(公式ドキュメント、専門家、一次ソース)と照合することで初めて成立する。
参考文献
- AI Hallucination Statistics 2026: 50+ Sourced Data Points — Suprmind, 2026年
- ChatGPT Restrictions Explained: OpenAI Bans Personalized Professional Advice in 2025 Update — Kohrman Jackson Krantz, 2025年12月
- Updates to our Acceptable Use Policy (now "Usage Policy") — Anthropic Privacy Center, 2025年9月
- Half of Chatbot Health Answers Were Problematic: Practical Safety Rules — TeleDirectMD Health Guides, 2026年
- Terms of Use — OpenAI, 2025年10月更新





