会議の録音やインタビュー音声をテキストにしたいけど、手で打ち込むのはしんどすぎる。そんなとき頼りになるのがAIの文字起こしです。2026年3月現在、Gemini(Google AI Studio)やChatGPT関連ツール、さらに専用の文字起こしアプリまで選択肢がかなり増えています。

ただ、「結局どれを使えばいいの?」「無料でどこまでできるの?」という疑問を持っている人も多いはず。この記事では、スマホで録音した音声をAIで文字起こしする具体的な方法を、ツールごとの精度や無料枠の違いとあわせて解説します。

そもそもAI文字起こしって何をしてくれるの?

AI文字起こしとは、録音した音声データをAIが自動でテキスト(文字)に変換してくれる技術のことです。ざっくり言うと「録音を聞いてタイピングしてくれるロボット」みたいなものですね。

2025年以降、AIの音声認識精度は飛躍的に向上しました。以前は「日本語だと精度がイマイチ」と言われていましたが、2026年現在のGeminiやWhisper(OpenAIの音声認識モデル)は日本語でもかなり高精度になっています。

できることをざっくりまとめると、こんな感じです。

  • 音声→テキスト変換: 録音ファイルをアップロードするだけでテキスト化
  • 話者の分離: 「Aさんの発言」「Bさんの発言」を分けて表示(ツールによる)
  • 要約・整形: 議事録形式にまとめたり、「えーと」などのフィラー(つなぎ言葉)を除去したり

つまり、録音→文字起こし→議事録作成まで一気にやってくれる時代になったわけです。

方法1: Google AI Studio(Gemini)で文字起こし — 無料で最強クラス

2026年3月時点で、無料で長時間の音声を文字起こしするならGoogle AI Studioが最強と言っていいでしょう。Googleの最新AIモデル「Gemini」を使って、音声ファイルをアップロードするだけでテキスト化できます。

やり方(5ステップ)

  1. Google AI StudioにGoogleアカウントでログイン
  2. 「Create Prompt」(プロンプトを作成)をクリック
  3. モデルを「Gemini 2.5 Pro」または「Gemini 2.5 Flash」に設定
  4. 音声ファイルをドラッグ&ドロップでアップロード(対応形式: MP3, WAV, FLAC, M4Aなど)
  5. プロンプト欄に「この音声を日本語で文字起こししてください。話者を区別して、フィラーは除去してください。」と入力して実行

メリット

  • 無料で使える(Googleアカウントがあればすぐ開始)
  • アップロードできるファイルサイズは最大2GB
  • プロンプト(指示文)を工夫すれば、議事録形式への整形や要約も同時にできる
  • 日本語の精度がかなり高い

注意点

  • 無料版には1日あたりの利用量に上限がある(長時間の音声を何本も処理すると制限にかかる場合がある)
  • スマホのブラウザからも使えるが、PCブラウザの方が操作しやすい
  • 音声データはGoogleのサーバーに送信されるため、機密性の高い会議の音声には注意が必要

精度を上げるコツとして、WAVやFLACなど非圧縮・可逆圧縮の音声形式を使うと認識精度が向上します。スマホで録音したM4AやMP3でも十分使えますが、より正確さを求めるならファイル変換してからアップロードするのがおすすめです。

方法2: ChatGPTは「直接アップロード」ができない — 代替手段を使おう

「ChatGPTに音声ファイルを投げれば文字起こしできるんでしょ?」と思っている人が多いのですが、実は2026年3月時点でChatGPT(Web版・アプリ版)は音声ファイルのアップロードによる文字起こしに対応していません

ChatGPTのAdvanced Voice Mode(音声モード)は、リアルタイムの会話には使えますが、「あらかじめ録音したファイルを読み込ませてテキスト化する」という使い方はできないんです。

じゃあどうすればいいの?

OpenAIが提供する音声認識モデル「Whisper」を使いましょう。Whisperは68万時間以上の多言語データで学習された高精度な音声認識モデルで、オープンソースとしてGitHubで公開されています。

Whisperを使う方法はいくつかあります。

  • Whisper Web UI: ブラウザ上でWhisperを使えるWebアプリ。PCがあれば手軽
  • OpenAI API: プログラミングができる人向け。最新モデル「GPT-4o Transcribe」が利用可能(2025年リリース)
  • ローカルインストール: PythonとGPU搭載PCがあれば完全無料・無制限で使える

要するに、ChatGPTで文字起こしをしたいなら「Whisper(またはGPT-4o Transcribe)で文字起こし → ChatGPTで要約・整形」という2段階になります。手軽さではGemini(Google AI Studio)に軍配が上がりますね。

方法3: 専用の文字起こしアプリ — スマホだけで完結させたいなら

「PCを開かずにスマホだけで完結させたい」という人には、専用の文字起こしアプリがおすすめです。2026年3月時点で人気のアプリを紹介します。

Notta(ノッタ)

  • iPhone・Android両対応
  • 無料プラン: 月120分まで文字起こし可能
  • 104言語に対応。日本語の精度も高い
  • リアルタイム文字起こしにも対応
  • 公式サイト

AutoMemo(オートメモ)

  • ソースネクストが提供する日本発のサービス
  • 文字起こし精度約99%をうたっている(クリアな音声の場合)
  • 話者識別・要約機能あり
  • 録音と同時に文字起こしが始まる
  • 公式サイト

Otter.ai(オッター)

  • 英語の精度は抜群(英語の会議が多い人向け)
  • 無料プラン: 月600分まで利用可能
  • 録音しながらPCでリアルタイムにテキスト確認ができる
  • 日本語の精度は他と比べるとやや劣る
  • 公式サイト

日本語の会議が中心ならNottaかAutoMemo、英語の会議ならOtter.aiという使い分けがわかりやすいです。

結局どれを使えばいいの?目的別の選び方

選択肢が多くて迷う人のために、目的別にまとめました。

やりたいことおすすめツール理由
長時間の音声を無料で文字起こしGoogle AI Studio(Gemini)無料でファイルサイズ2GBまで対応。プロンプトで整形も可能
スマホだけで録音から文字起こしまで完結Notta / AutoMemoアプリ内で録音→文字起こし→要約まで一括処理
英語の会議を文字起こしOtter.ai英語の認識精度が非常に高く、無料枠も月600分と大きい
機密情報を含む音声を安全に処理Whisper(ローカル版)自分のPC内で完結するため、外部にデータが送信されない
文字起こし後に要約や翻訳もしたいGemini + ChatGPTGeminiで文字起こし→ChatGPTで要約・翻訳が効率的

ポイントは、「何を一番重視するか」で決めること。無料で手軽にやりたいならGoogle AI Studio、スマホ完結ならNotta、セキュリティ重視ならWhisperローカル版、と覚えておけばOKです。

文字起こしの精度を上げる5つのコツ

どのツールを使うにしても、元の音声の質が精度を大きく左右します。「AIが優秀でも、音声がガビガビだとどうにもならない」というわけです。

  1. マイクを話者に近づける: スマホの内蔵マイクでも、テーブル中央に置くだけで精度が変わる
  2. 静かな場所で録音する: カフェやオープンスペースのBGMはAIの大敵
  3. 複数人の会議はピンマイクを検討: 話者が多いと声が被って認識精度が下がる
  4. 録音形式はWAV・FLACが理想: スマホの標準録音アプリでもWAV出力に変更できることが多い
  5. 長時間の音声は分割する: 2時間を超える音声は30分〜1時間ごとに分けるとエラーが起きにくい

FAQ

スマホで録音した音声はそのままAIで文字起こしできる?

はい、できます。iPhoneのボイスメモ(M4A形式)やAndroidの録音アプリ(MP3やOGG形式)で録音したファイルを、Google AI Studioにアップロードするだけで文字起こし可能です。ファイル形式を変換する必要は基本的にありません。

無料のAI文字起こしに時間制限はある?

ツールによります。Google AI Studioは1日あたりの利用量に上限がありますが、通常の会議1〜2本なら問題ありません。Nottaは月120分、Otter.aiは月600分が無料枠の目安です(2026年3月時点)。

会社の機密情報を含む会議の録音をAIに渡しても大丈夫?

クラウド型のサービス(Google AI Studio、Notta、Otter.ai等)は音声データがサーバーに送信されるため、社内のセキュリティポリシーを確認してください。機密性が高い場合は、Whisperのローカル版(自分のPC内だけで処理するため外部に送信されない)の利用を検討しましょう。

ChatGPTに直接音声ファイルを渡して文字起こしできる?

2026年3月時点では、ChatGPTのWeb版・アプリ版に音声ファイルをアップロードして文字起こしする機能はありません。OpenAIの音声認識モデル「Whisper」またはOpenAI APIの「GPT-4o Transcribe」を使って先に文字起こしし、その結果をChatGPTに渡して要約・整形する流れになります。

日本語と英語が混ざった音声でも文字起こしできる?

GeminiやWhisperは多言語に対応しているため、日英混在の音声でも認識可能です。ただし、切り替わりのタイミングで誤認識することがあるため、プロンプトで「日本語と英語が混在しています」と事前に伝えておくと精度が上がります。

参考文献