結論から言う。2026年3月時点で、スマホで録音した音声をAIで文字起こしする最有力解はGoogle AI Studio(Gemini 2.5 Pro / Flash)である。無料で長尺ファイルが投げられ、日本語精度も実用ライン。ChatGPT (gpt-4o, 2026-03 時点) は音声ファイル直アップによる文字起こしに対応していないため、別経路(Whisper や GPT-4o Transcribe)を噛ませる必要がある。本稿は2026年3月時点の検証結果として、ツール別の精度・無料枠・運用面の差分を整理する。

AI文字起こしの仕組みと対応範囲

AI文字起こしは、録音した音声データをAIが自動でテキストに変換する処理を指す。実体は機械学習ベースの音声認識(ASR: Automatic Speech Recognition)モデルである。

2025年以降、日本語ASRの精度は明確に水準が上がった。以前は「日本語は精度がイマイチ」と評されていたが、2026年時点のGemini 2.5 ProやOpenAIのWhisper large-v3は日本語でも実務で耐える精度に到達している。

対応範囲は次のとおりだ。

  • 音声→テキスト変換: 録音ファイルをアップロードするだけでテキスト化する
  • 話者分離: 「Aさんの発言」「Bさんの発言」を分けて出力する(ツール依存)
  • 要約・整形: 議事録形式への成形、フィラー(つなぎ言葉)の除去

つまり、録音→文字起こし→議事録作成を1パイプラインで通せる段階に達したと判断する。

方法1: Google AI Studio(Gemini)で文字起こし — 無料で最強クラス

2026年3月時点で、無料で長時間の音声を文字起こしする要件ならGoogle AI Studioが最有力と判断する。Googleの最新AIモデル「Gemini」を使い、音声ファイルをアップロードするだけでテキスト化できる。

手順(5ステップ)

  1. Google AI StudioにGoogleアカウントでログインする
  2. 「Create Prompt」(プロンプトを作成)をクリックする
  3. モデルを「Gemini 2.5 Pro」または「Gemini 2.5 Flash」に設定する
  4. 音声ファイルをドラッグ&ドロップでアップロードする(対応形式: MP3, WAV, FLAC, M4Aなど)
  5. プロンプト欄に「この音声を日本語で文字起こししてください。話者を区別し、フィラーは除去してください。」と入力して実行する

メリット

  • 無料で使える(Googleアカウントがあれば即時開始)
  • アップロード可能なファイルサイズは最大2GB
  • プロンプトを工夫すれば、議事録形式への整形や要約も同時に処理できる
  • 日本語の認識精度が実用水準

注意点

  • 無料版には1日あたりの利用量上限がある(長尺音声を連続投入すると制限に当たる)
  • スマホブラウザからも使えるが、PCブラウザの方が操作性が高い
  • 音声データはGoogleのサーバーに送信されるため、機密性の高い会議の音声には適さない

精度を上げる定石として、WAVやFLACなど非圧縮・可逆圧縮の音声形式を使うと認識精度が向上する。スマホで録音したM4AやMP3でも実用水準だが、より正確性を求める場面ではffmpegでファイル変換してからアップロードする運用が妥当である。

方法2: ChatGPTは音声ファイル直アップ非対応 — 代替ルートを使う

「ChatGPTに音声ファイルを投げれば文字起こしできる」と誤解している層は多いが、仕様上は異なる。2026年3月時点でChatGPT(Web版・アプリ版)は音声ファイルのアップロードによる文字起こしに対応していない

ChatGPTのAdvanced Voice Mode(音声モード)はリアルタイム会話用であり、「あらかじめ録音したファイルを読み込ませてテキスト化する」フローには適用できない。

代替ルート

OpenAIが提供する音声認識モデル「Whisper」を使う。Whisperは68万時間以上の多言語データで学習された高精度ASRモデルであり、オープンソースとしてGitHubで公開されている。

Whisperの利用パスは3つだ。

  • Whisper Web UI: ブラウザ上でWhisperを動かすWebアプリ。PCがあれば最も手数が少ない
  • OpenAI API: プログラマ向け。最新モデル「GPT-4o Transcribe」が利用可能(2025年リリース)
  • ローカルインストール: PythonとGPU搭載PCがあれば完全無料・無制限で実行できる

運用としては、ChatGPTで文字起こしをしたい場合「Whisper(またはGPT-4o Transcribe)で文字起こし → ChatGPTで要約・整形」という2段構えに分解する。手数の少なさではGemini(Google AI Studio)が優位にあたる。

方法3: 専用の文字起こしアプリ — スマホだけで完結させる選択肢

「PCを開かず、スマホで完結させる」要件には、専用の文字起こしアプリが向く。2026年3月時点で主要なアプリを示す。

Notta(ノッタ)

  • iPhone・Android両対応
  • 無料プラン: 月120分まで文字起こし可能
  • 104言語対応。日本語の精度も高い
  • リアルタイム文字起こしにも対応
  • 公式サイト

AutoMemo(オートメモ)

  • ソースネクストが提供する日本発のサービス
  • 文字起こし精度約99%を公称(クリアな音声条件下)
  • 話者識別・要約機能あり
  • 録音と同時に文字起こしが走る
  • 公式サイト

Otter.ai(オッター)

  • 英語の精度は抜群(英語会議が多い層向け)
  • 無料プラン: 月600分まで利用可
  • 録音しながらPCでリアルタイムにテキスト確認可能
  • 日本語精度は他と比べやや劣る
  • 公式サイト

日本語会議が中心ならNottaかAutoMemo、英語会議ならOtter.aiという分担が合理的である。

目的別の選定マトリクス

選択肢が多いため、目的別にマッピングする。

やりたいこと推奨ツール理由
長時間の音声を無料で文字起こしGoogle AI Studio(Gemini)無料で最大2GBのファイルに対応。プロンプトで整形まで一気通貫
スマホだけで録音から文字起こしまで完結Notta / AutoMemoアプリ内で録音→文字起こし→要約まで一括
英語の会議を文字起こしOtter.ai英語認識精度が高く、無料枠も月600分と大きい
機密情報を含む音声を安全に処理Whisper(ローカル版)自PC内で完結、外部送信なし
文字起こし後に要約や翻訳もしたいGemini + ChatGPTGeminiで文字起こし→ChatGPTで要約・翻訳の二段で精度が出る

判断軸は「何を一番重視するか」に絞れる。無料で手軽ならGoogle AI Studio、スマホ完結ならNotta、セキュリティ重視ならWhisperローカル版という整理にあたる。

文字起こしの精度を上げる5つの設計

ツールを選ぶ前に、元の音声の質が精度の上限を決める。AIが優秀でも、音声がガビガビなら出力は崩れる。筆者もSIer時代、現場でICレコーダーをテーブル中央に置いただけの議事録音声を後追いで文字起こしさせ、固有名詞が壊滅した経験がある。

  1. マイクを話者に近づける: スマホ内蔵マイクでも、テーブル中央に置くだけで精度が変わる
  2. 静かな場所で録音する: カフェやオープンスペースのBGMはASRの大敵にあたる
  3. 複数人会議はピンマイクを検討: 話者が多いと声が被って認識精度が落ちる
  4. 録音形式はWAV・FLACが理想: スマホ標準録音アプリでもWAV出力に変更できる機種が多い
  5. 長時間の音声は分割する: 2時間を超える音声は30分〜1時間ごとに分割するとエラーが起きにくい

FAQ

スマホで録音した音声はそのままAIで文字起こしできるか?

できる。iPhoneのボイスメモ(M4A形式)やAndroidの録音アプリ(MP3やOGG形式)で録音したファイルを、Google AI Studioにアップロードするだけで文字起こし可能だ。ファイル形式の事前変換は基本的に不要である。

無料のAI文字起こしに時間制限はあるか?

ツール依存である。Google AI Studioは1日あたりの利用量に上限があるが、通常の会議1〜2本なら問題ない。Nottaは月120分、Otter.aiは月600分が無料枠の目安となる(2026年3月時点)。

会社の機密情報を含む会議の録音をAIに渡してよいか?

クラウド型サービス(Google AI Studio、Notta、Otter.aiなど)は音声データがサーバーに送信されるため、社内のセキュリティポリシーを必ず確認すべきだ。機密性が高い場合は、Whisperのローカル版(PC内だけで処理し外部に送信されない構成)の利用が妥当である。

ChatGPTに直接音声ファイルを渡して文字起こしできるか?

2026年3月時点では、ChatGPTのWeb版・アプリ版に音声ファイルをアップロードして文字起こしする機能は存在しない。OpenAIの音声認識モデル「Whisper」またはOpenAI APIの「GPT-4o Transcribe」で先に文字起こしし、その結果をChatGPTに渡して要約・整形する2段運用となる。

日本語と英語が混ざった音声でも文字起こしできるか?

GeminiやWhisperは多言語対応のため、日英混在音声でも認識可能である。ただし切り替わりタイミングで誤認識する場合があるため、プロンプトで「日本語と英語が混在しています」と事前に伝えると精度が安定する。

参考文献