会議の録音やインタビュー音声をテキストにしたいけど、手で打ち込むのはしんどすぎる。そんなとき頼りになるのがAIの文字起こしです。2026年3月現在、Gemini(Google AI Studio)やChatGPT関連ツール、さらに専用の文字起こしアプリまで選択肢がかなり増えています。
ただ、「結局どれを使えばいいの?」「無料でどこまでできるの?」という疑問を持っている人も多いはず。この記事では、スマホで録音した音声をAIで文字起こしする具体的な方法を、ツールごとの精度や無料枠の違いとあわせて解説します。
そもそもAI文字起こしって何をしてくれるの?
AI文字起こしとは、録音した音声データをAIが自動でテキスト(文字)に変換してくれる技術のことです。ざっくり言うと「録音を聞いてタイピングしてくれるロボット」みたいなものですね。
2025年以降、AIの音声認識精度は飛躍的に向上しました。以前は「日本語だと精度がイマイチ」と言われていましたが、2026年現在のGeminiやWhisper(OpenAIの音声認識モデル)は日本語でもかなり高精度になっています。
できることをざっくりまとめると、こんな感じです。
- 音声→テキスト変換: 録音ファイルをアップロードするだけでテキスト化
- 話者の分離: 「Aさんの発言」「Bさんの発言」を分けて表示(ツールによる)
- 要約・整形: 議事録形式にまとめたり、「えーと」などのフィラー(つなぎ言葉)を除去したり
つまり、録音→文字起こし→議事録作成まで一気にやってくれる時代になったわけです。
方法1: Google AI Studio(Gemini)で文字起こし — 無料で最強クラス
2026年3月時点で、無料で長時間の音声を文字起こしするならGoogle AI Studioが最強と言っていいでしょう。Googleの最新AIモデル「Gemini」を使って、音声ファイルをアップロードするだけでテキスト化できます。
やり方(5ステップ)
- Google AI StudioにGoogleアカウントでログイン
- 「Create Prompt」(プロンプトを作成)をクリック
- モデルを「Gemini 2.5 Pro」または「Gemini 2.5 Flash」に設定
- 音声ファイルをドラッグ&ドロップでアップロード(対応形式: MP3, WAV, FLAC, M4Aなど)
- プロンプト欄に「この音声を日本語で文字起こししてください。話者を区別して、フィラーは除去してください。」と入力して実行
メリット
- 無料で使える(Googleアカウントがあればすぐ開始)
- アップロードできるファイルサイズは最大2GB
- プロンプト(指示文)を工夫すれば、議事録形式への整形や要約も同時にできる
- 日本語の精度がかなり高い
注意点
- 無料版には1日あたりの利用量に上限がある(長時間の音声を何本も処理すると制限にかかる場合がある)
- スマホのブラウザからも使えるが、PCブラウザの方が操作しやすい
- 音声データはGoogleのサーバーに送信されるため、機密性の高い会議の音声には注意が必要
精度を上げるコツとして、WAVやFLACなど非圧縮・可逆圧縮の音声形式を使うと認識精度が向上します。スマホで録音したM4AやMP3でも十分使えますが、より正確さを求めるならファイル変換してからアップロードするのがおすすめです。
方法2: ChatGPTは「直接アップロード」ができない — 代替手段を使おう
「ChatGPTに音声ファイルを投げれば文字起こしできるんでしょ?」と思っている人が多いのですが、実は2026年3月時点でChatGPT(Web版・アプリ版)は音声ファイルのアップロードによる文字起こしに対応していません。
ChatGPTのAdvanced Voice Mode(音声モード)は、リアルタイムの会話には使えますが、「あらかじめ録音したファイルを読み込ませてテキスト化する」という使い方はできないんです。
じゃあどうすればいいの?
OpenAIが提供する音声認識モデル「Whisper」を使いましょう。Whisperは68万時間以上の多言語データで学習された高精度な音声認識モデルで、オープンソースとしてGitHubで公開されています。
Whisperを使う方法はいくつかあります。
- Whisper Web UI: ブラウザ上でWhisperを使えるWebアプリ。PCがあれば手軽
- OpenAI API: プログラミングができる人向け。最新モデル「GPT-4o Transcribe」が利用可能(2025年リリース)
- ローカルインストール: PythonとGPU搭載PCがあれば完全無料・無制限で使える
要するに、ChatGPTで文字起こしをしたいなら「Whisper(またはGPT-4o Transcribe)で文字起こし → ChatGPTで要約・整形」という2段階になります。手軽さではGemini(Google AI Studio)に軍配が上がりますね。
方法3: 専用の文字起こしアプリ — スマホだけで完結させたいなら
「PCを開かずにスマホだけで完結させたい」という人には、専用の文字起こしアプリがおすすめです。2026年3月時点で人気のアプリを紹介します。
Notta(ノッタ)
- iPhone・Android両対応
- 無料プラン: 月120分まで文字起こし可能
- 104言語に対応。日本語の精度も高い
- リアルタイム文字起こしにも対応
- 公式サイト
AutoMemo(オートメモ)
- ソースネクストが提供する日本発のサービス
- 文字起こし精度約99%をうたっている(クリアな音声の場合)
- 話者識別・要約機能あり
- 録音と同時に文字起こしが始まる
- 公式サイト
Otter.ai(オッター)
- 英語の精度は抜群(英語の会議が多い人向け)
- 無料プラン: 月600分まで利用可能
- 録音しながらPCでリアルタイムにテキスト確認ができる
- 日本語の精度は他と比べるとやや劣る
- 公式サイト
日本語の会議が中心ならNottaかAutoMemo、英語の会議ならOtter.aiという使い分けがわかりやすいです。
結局どれを使えばいいの?目的別の選び方
選択肢が多くて迷う人のために、目的別にまとめました。
| やりたいこと | おすすめツール | 理由 |
|---|---|---|
| 長時間の音声を無料で文字起こし | Google AI Studio(Gemini) | 無料でファイルサイズ2GBまで対応。プロンプトで整形も可能 |
| スマホだけで録音から文字起こしまで完結 | Notta / AutoMemo | アプリ内で録音→文字起こし→要約まで一括処理 |
| 英語の会議を文字起こし | Otter.ai | 英語の認識精度が非常に高く、無料枠も月600分と大きい |
| 機密情報を含む音声を安全に処理 | Whisper(ローカル版) | 自分のPC内で完結するため、外部にデータが送信されない |
| 文字起こし後に要約や翻訳もしたい | Gemini + ChatGPT | Geminiで文字起こし→ChatGPTで要約・翻訳が効率的 |
ポイントは、「何を一番重視するか」で決めること。無料で手軽にやりたいならGoogle AI Studio、スマホ完結ならNotta、セキュリティ重視ならWhisperローカル版、と覚えておけばOKです。
文字起こしの精度を上げる5つのコツ
どのツールを使うにしても、元の音声の質が精度を大きく左右します。「AIが優秀でも、音声がガビガビだとどうにもならない」というわけです。
- マイクを話者に近づける: スマホの内蔵マイクでも、テーブル中央に置くだけで精度が変わる
- 静かな場所で録音する: カフェやオープンスペースのBGMはAIの大敵
- 複数人の会議はピンマイクを検討: 話者が多いと声が被って認識精度が下がる
- 録音形式はWAV・FLACが理想: スマホの標準録音アプリでもWAV出力に変更できることが多い
- 長時間の音声は分割する: 2時間を超える音声は30分〜1時間ごとに分けるとエラーが起きにくい
FAQ
スマホで録音した音声はそのままAIで文字起こしできる?
はい、できます。iPhoneのボイスメモ(M4A形式)やAndroidの録音アプリ(MP3やOGG形式)で録音したファイルを、Google AI Studioにアップロードするだけで文字起こし可能です。ファイル形式を変換する必要は基本的にありません。
無料のAI文字起こしに時間制限はある?
ツールによります。Google AI Studioは1日あたりの利用量に上限がありますが、通常の会議1〜2本なら問題ありません。Nottaは月120分、Otter.aiは月600分が無料枠の目安です(2026年3月時点)。
会社の機密情報を含む会議の録音をAIに渡しても大丈夫?
クラウド型のサービス(Google AI Studio、Notta、Otter.ai等)は音声データがサーバーに送信されるため、社内のセキュリティポリシーを確認してください。機密性が高い場合は、Whisperのローカル版(自分のPC内だけで処理するため外部に送信されない)の利用を検討しましょう。
ChatGPTに直接音声ファイルを渡して文字起こしできる?
2026年3月時点では、ChatGPTのWeb版・アプリ版に音声ファイルをアップロードして文字起こしする機能はありません。OpenAIの音声認識モデル「Whisper」またはOpenAI APIの「GPT-4o Transcribe」を使って先に文字起こしし、その結果をChatGPTに渡して要約・整形する流れになります。
日本語と英語が混ざった音声でも文字起こしできる?
GeminiやWhisperは多言語に対応しているため、日英混在の音声でも認識可能です。ただし、切り替わりのタイミングで誤認識することがあるため、プロンプトで「日本語と英語が混在しています」と事前に伝えておくと精度が上がります。
参考文献
- Google AI Studio — Google, 2026年
- Whisper - Robust Speech Recognition via Large-Scale Weak Supervision — OpenAI, GitHub
- Notta - AI文字起こしサービス — Notta株式会社
- AutoMemo(オートメモ) — ソースネクスト株式会社
- Otter.ai - AI Meeting Assistant — Otter.ai, Inc.






