結論から言う。2026年3月時点で、スマホで録音した音声をAIで文字起こしする最有力解はGoogle AI Studio(Gemini 2.5 Pro / Flash)である。無料で長尺ファイルが投げられ、日本語精度も実用ライン。ChatGPT (gpt-4o, 2026-03 時点) は音声ファイル直アップによる文字起こしに対応していないため、別経路(Whisper や GPT-4o Transcribe)を噛ませる必要がある。本稿は2026年3月時点の検証結果として、ツール別の精度・無料枠・運用面の差分を整理する。
AI文字起こしの仕組みと対応範囲
AI文字起こしは、録音した音声データをAIが自動でテキストに変換する処理を指す。実体は機械学習ベースの音声認識(ASR: Automatic Speech Recognition)モデルである。
2025年以降、日本語ASRの精度は明確に水準が上がった。以前は「日本語は精度がイマイチ」と評されていたが、2026年時点のGemini 2.5 ProやOpenAIのWhisper large-v3は日本語でも実務で耐える精度に到達している。
対応範囲は次のとおりだ。
- 音声→テキスト変換: 録音ファイルをアップロードするだけでテキスト化する
- 話者分離: 「Aさんの発言」「Bさんの発言」を分けて出力する(ツール依存)
- 要約・整形: 議事録形式への成形、フィラー(つなぎ言葉)の除去
つまり、録音→文字起こし→議事録作成を1パイプラインで通せる段階に達したと判断する。
方法1: Google AI Studio(Gemini)で文字起こし — 無料で最強クラス
2026年3月時点で、無料で長時間の音声を文字起こしする要件ならGoogle AI Studioが最有力と判断する。Googleの最新AIモデル「Gemini」を使い、音声ファイルをアップロードするだけでテキスト化できる。
手順(5ステップ)
- Google AI StudioにGoogleアカウントでログインする
- 「Create Prompt」(プロンプトを作成)をクリックする
- モデルを「Gemini 2.5 Pro」または「Gemini 2.5 Flash」に設定する
- 音声ファイルをドラッグ&ドロップでアップロードする(対応形式: MP3, WAV, FLAC, M4Aなど)
- プロンプト欄に「この音声を日本語で文字起こししてください。話者を区別し、フィラーは除去してください。」と入力して実行する
メリット
- 無料で使える(Googleアカウントがあれば即時開始)
- アップロード可能なファイルサイズは最大2GB
- プロンプトを工夫すれば、議事録形式への整形や要約も同時に処理できる
- 日本語の認識精度が実用水準
注意点
- 無料版には1日あたりの利用量上限がある(長尺音声を連続投入すると制限に当たる)
- スマホブラウザからも使えるが、PCブラウザの方が操作性が高い
- 音声データはGoogleのサーバーに送信されるため、機密性の高い会議の音声には適さない
精度を上げる定石として、WAVやFLACなど非圧縮・可逆圧縮の音声形式を使うと認識精度が向上する。スマホで録音したM4AやMP3でも実用水準だが、より正確性を求める場面ではffmpegでファイル変換してからアップロードする運用が妥当である。
方法2: ChatGPTは音声ファイル直アップ非対応 — 代替ルートを使う
「ChatGPTに音声ファイルを投げれば文字起こしできる」と誤解している層は多いが、仕様上は異なる。2026年3月時点でChatGPT(Web版・アプリ版)は音声ファイルのアップロードによる文字起こしに対応していない。
ChatGPTのAdvanced Voice Mode(音声モード)はリアルタイム会話用であり、「あらかじめ録音したファイルを読み込ませてテキスト化する」フローには適用できない。
代替ルート
OpenAIが提供する音声認識モデル「Whisper」を使う。Whisperは68万時間以上の多言語データで学習された高精度ASRモデルであり、オープンソースとしてGitHubで公開されている。
Whisperの利用パスは3つだ。
- Whisper Web UI: ブラウザ上でWhisperを動かすWebアプリ。PCがあれば最も手数が少ない
- OpenAI API: プログラマ向け。最新モデル「GPT-4o Transcribe」が利用可能(2025年リリース)
- ローカルインストール: PythonとGPU搭載PCがあれば完全無料・無制限で実行できる
運用としては、ChatGPTで文字起こしをしたい場合「Whisper(またはGPT-4o Transcribe)で文字起こし → ChatGPTで要約・整形」という2段構えに分解する。手数の少なさではGemini(Google AI Studio)が優位にあたる。
方法3: 専用の文字起こしアプリ — スマホだけで完結させる選択肢
「PCを開かず、スマホで完結させる」要件には、専用の文字起こしアプリが向く。2026年3月時点で主要なアプリを示す。
Notta(ノッタ)
- iPhone・Android両対応
- 無料プラン: 月120分まで文字起こし可能
- 104言語対応。日本語の精度も高い
- リアルタイム文字起こしにも対応
- 公式サイト
AutoMemo(オートメモ)
- ソースネクストが提供する日本発のサービス
- 文字起こし精度約99%を公称(クリアな音声条件下)
- 話者識別・要約機能あり
- 録音と同時に文字起こしが走る
- 公式サイト
Otter.ai(オッター)
- 英語の精度は抜群(英語会議が多い層向け)
- 無料プラン: 月600分まで利用可
- 録音しながらPCでリアルタイムにテキスト確認可能
- 日本語精度は他と比べやや劣る
- 公式サイト
日本語会議が中心ならNottaかAutoMemo、英語会議ならOtter.aiという分担が合理的である。
目的別の選定マトリクス
選択肢が多いため、目的別にマッピングする。
| やりたいこと | 推奨ツール | 理由 |
|---|---|---|
| 長時間の音声を無料で文字起こし | Google AI Studio(Gemini) | 無料で最大2GBのファイルに対応。プロンプトで整形まで一気通貫 |
| スマホだけで録音から文字起こしまで完結 | Notta / AutoMemo | アプリ内で録音→文字起こし→要約まで一括 |
| 英語の会議を文字起こし | Otter.ai | 英語認識精度が高く、無料枠も月600分と大きい |
| 機密情報を含む音声を安全に処理 | Whisper(ローカル版) | 自PC内で完結、外部送信なし |
| 文字起こし後に要約や翻訳もしたい | Gemini + ChatGPT | Geminiで文字起こし→ChatGPTで要約・翻訳の二段で精度が出る |
判断軸は「何を一番重視するか」に絞れる。無料で手軽ならGoogle AI Studio、スマホ完結ならNotta、セキュリティ重視ならWhisperローカル版という整理にあたる。
文字起こしの精度を上げる5つの設計
ツールを選ぶ前に、元の音声の質が精度の上限を決める。AIが優秀でも、音声がガビガビなら出力は崩れる。筆者もSIer時代、現場でICレコーダーをテーブル中央に置いただけの議事録音声を後追いで文字起こしさせ、固有名詞が壊滅した経験がある。
- マイクを話者に近づける: スマホ内蔵マイクでも、テーブル中央に置くだけで精度が変わる
- 静かな場所で録音する: カフェやオープンスペースのBGMはASRの大敵にあたる
- 複数人会議はピンマイクを検討: 話者が多いと声が被って認識精度が落ちる
- 録音形式はWAV・FLACが理想: スマホ標準録音アプリでもWAV出力に変更できる機種が多い
- 長時間の音声は分割する: 2時間を超える音声は30分〜1時間ごとに分割するとエラーが起きにくい
FAQ
スマホで録音した音声はそのままAIで文字起こしできるか?
できる。iPhoneのボイスメモ(M4A形式)やAndroidの録音アプリ(MP3やOGG形式)で録音したファイルを、Google AI Studioにアップロードするだけで文字起こし可能だ。ファイル形式の事前変換は基本的に不要である。
無料のAI文字起こしに時間制限はあるか?
ツール依存である。Google AI Studioは1日あたりの利用量に上限があるが、通常の会議1〜2本なら問題ない。Nottaは月120分、Otter.aiは月600分が無料枠の目安となる(2026年3月時点)。
会社の機密情報を含む会議の録音をAIに渡してよいか?
クラウド型サービス(Google AI Studio、Notta、Otter.aiなど)は音声データがサーバーに送信されるため、社内のセキュリティポリシーを必ず確認すべきだ。機密性が高い場合は、Whisperのローカル版(PC内だけで処理し外部に送信されない構成)の利用が妥当である。
ChatGPTに直接音声ファイルを渡して文字起こしできるか?
2026年3月時点では、ChatGPTのWeb版・アプリ版に音声ファイルをアップロードして文字起こしする機能は存在しない。OpenAIの音声認識モデル「Whisper」またはOpenAI APIの「GPT-4o Transcribe」で先に文字起こしし、その結果をChatGPTに渡して要約・整形する2段運用となる。
日本語と英語が混ざった音声でも文字起こしできるか?
GeminiやWhisperは多言語対応のため、日英混在音声でも認識可能である。ただし切り替わりタイミングで誤認識する場合があるため、プロンプトで「日本語と英語が混在しています」と事前に伝えると精度が安定する。
参考文献
- Google AI Studio — Google, 2026年
- Whisper - Robust Speech Recognition via Large-Scale Weak Supervision — OpenAI, GitHub
- Notta - AI文字起こしサービス — Notta株式会社
- AutoMemo(オートメモ) — ソースネクスト株式会社
- Otter.ai - AI Meeting Assistant — Otter.ai, Inc.






