スマホの録音をAIで文字起こしする方法｜Gemini・ChatGPT・専用アプリの精度と使い分け【2026年版】

結論から言う。2026年3月時点で、スマホで録音した音声をAIで文字起こしする最有力解はGoogle AI Studio（Gemini 2.5 Pro / Flash）である。無料で長尺ファイルが投げられ、日本語精度も実用ライン。ChatGPT (gpt-4o, 2026-03 時点) は音声ファイル直アップによる文字起こしに対応していないため、別経路（Whisper や GPT-4o Transcribe）を噛ませる必要がある。本稿は2026年3月時点の検証結果として、ツール別の精度・無料枠・運用面の差分を整理する。

AI文字起こしの仕組みと対応範囲

AI文字起こしは、録音した音声データをAIが自動でテキストに変換する処理を指す。実体は機械学習ベースの音声認識（ASR: Automatic Speech Recognition）モデルである。

2025年以降、日本語ASRの精度は明確に水準が上がった。以前は「日本語は精度がイマイチ」と評されていたが、2026年時点のGemini 2.5 ProやOpenAIのWhisper large-v3は日本語でも実務で耐える精度に到達している。

対応範囲は次のとおりだ。

音声→テキスト変換: 録音ファイルをアップロードするだけでテキスト化する
話者分離: 「Aさんの発言」「Bさんの発言」を分けて出力する（ツール依存）
要約・整形: 議事録形式への成形、フィラー（つなぎ言葉）の除去

つまり、録音→文字起こし→議事録作成を1パイプラインで通せる段階に達したと判断する。

方法1: Google AI Studio（Gemini）で文字起こし — 無料で最強クラス

2026年3月時点で、無料で長時間の音声を文字起こしする要件ならGoogle AI Studioが最有力と判断する。Googleの最新AIモデル「Gemini」を使い、音声ファイルをアップロードするだけでテキスト化できる。

手順（5ステップ）

Google AI StudioにGoogleアカウントでログインする
「Create Prompt」（プロンプトを作成）をクリックする
モデルを「Gemini 2.5 Pro」または「Gemini 2.5 Flash」に設定する
音声ファイルをドラッグ＆ドロップでアップロードする（対応形式: MP3, WAV, FLAC, M4Aなど）
プロンプト欄に「この音声を日本語で文字起こししてください。話者を区別し、フィラーは除去してください。」と入力して実行する

メリット

無料で使える（Googleアカウントがあれば即時開始）
アップロード可能なファイルサイズは最大2GB
プロンプトを工夫すれば、議事録形式への整形や要約も同時に処理できる
日本語の認識精度が実用水準

注意点

無料版には1日あたりの利用量上限がある（長尺音声を連続投入すると制限に当たる）
スマホブラウザからも使えるが、PCブラウザの方が操作性が高い
音声データはGoogleのサーバーに送信されるため、機密性の高い会議の音声には適さない

精度を上げる定石として、WAVやFLACなど非圧縮・可逆圧縮の音声形式を使うと認識精度が向上する。スマホで録音したM4AやMP3でも実用水準だが、より正確性を求める場面ではffmpegでファイル変換してからアップロードする運用が妥当である。

[PR] Amazon

「ボイスレコーダー」をAmazonで見る

Amazonのアソシエイトとして、ワカラン？は適格販売により収入を得ています。

方法2: ChatGPTは音声ファイル直アップ非対応 — 代替ルートを使う

「ChatGPTに音声ファイルを投げれば文字起こしできる」と誤解している層は多いが、仕様上は異なる。2026年3月時点でChatGPT（Web版・アプリ版）は音声ファイルのアップロードによる文字起こしに対応していない。

ChatGPTのAdvanced Voice Mode（音声モード）はリアルタイム会話用であり、「あらかじめ録音したファイルを読み込ませてテキスト化する」フローには適用できない。

代替ルート

OpenAIが提供する音声認識モデル「Whisper」を使う。Whisperは68万時間以上の多言語データで学習された高精度ASRモデルであり、オープンソースとしてGitHubで公開されている。

Whisperの利用パスは3つだ。

Whisper Web UI: ブラウザ上でWhisperを動かすWebアプリ。PCがあれば最も手数が少ない
OpenAI API: プログラマ向け。最新モデル「GPT-4o Transcribe」が利用可能（2025年リリース）
ローカルインストール: PythonとGPU搭載PCがあれば完全無料・無制限で実行できる

運用としては、ChatGPTで文字起こしをしたい場合「Whisper（またはGPT-4o Transcribe）で文字起こし → ChatGPTで要約・整形」という2段構えに分解する。手数の少なさではGemini（Google AI Studio）が優位にあたる。

方法3: 専用の文字起こしアプリ — スマホだけで完結させる選択肢

「PCを開かず、スマホで完結させる」要件には、専用の文字起こしアプリが向く。2026年3月時点で主要なアプリを示す。

Notta（ノッタ）

iPhone・Android両対応
無料プラン: 月120分まで文字起こし可能
104言語対応。日本語の精度も高い
リアルタイム文字起こしにも対応
公式サイト

AutoMemo（オートメモ）

ソースネクストが提供する日本発のサービス
文字起こし精度約99%を公称（クリアな音声条件下）
話者識別・要約機能あり
録音と同時に文字起こしが走る
公式サイト

Otter.ai（オッター）

英語の精度は抜群（英語会議が多い層向け）
無料プラン: 月600分まで利用可
録音しながらPCでリアルタイムにテキスト確認可能
日本語精度は他と比べやや劣る
公式サイト

日本語会議が中心ならNottaかAutoMemo、英語会議ならOtter.aiという分担が合理的である。

目的別の選定マトリクス

選択肢が多いため、目的別にマッピングする。

やりたいこと	推奨ツール	理由
長時間の音声を無料で文字起こし	Google AI Studio（Gemini）	無料で最大2GBのファイルに対応。プロンプトで整形まで一気通貫
スマホだけで録音から文字起こしまで完結	Notta / AutoMemo	アプリ内で録音→文字起こし→要約まで一括
英語の会議を文字起こし	Otter.ai	英語認識精度が高く、無料枠も月600分と大きい
機密情報を含む音声を安全に処理	Whisper（ローカル版）	自PC内で完結、外部送信なし
文字起こし後に要約や翻訳もしたい	Gemini + ChatGPT	Geminiで文字起こし→ChatGPTで要約・翻訳の二段で精度が出る

判断軸は「何を一番重視するか」に絞れる。無料で手軽ならGoogle AI Studio、スマホ完結ならNotta、セキュリティ重視ならWhisperローカル版という整理にあたる。

文字起こしの精度を上げる5つの設計

ツールを選ぶ前に、元の音声の質が精度の上限を決める。AIが優秀でも、音声がガビガビなら出力は崩れる。筆者もSIer時代、現場でICレコーダーをテーブル中央に置いただけの議事録音声を後追いで文字起こしさせ、固有名詞が壊滅した経験がある。

マイクを話者に近づける: スマホ内蔵マイクでも、テーブル中央に置くだけで精度が変わる
静かな場所で録音する: カフェやオープンスペースのBGMはASRの大敵にあたる
複数人会議はピンマイクを検討: 話者が多いと声が被って認識精度が落ちる
録音形式はWAV・FLACが理想: スマホ標準録音アプリでもWAV出力に変更できる機種が多い
長時間の音声は分割する: 2時間を超える音声は30分〜1時間ごとに分割するとエラーが起きにくい

FAQ

スマホで録音した音声はそのままAIで文字起こしできるか？

できる。iPhoneのボイスメモ（M4A形式）やAndroidの録音アプリ（MP3やOGG形式）で録音したファイルを、Google AI Studioにアップロードするだけで文字起こし可能だ。ファイル形式の事前変換は基本的に不要である。

無料のAI文字起こしに時間制限はあるか？

ツール依存である。Google AI Studioは1日あたりの利用量に上限があるが、通常の会議1〜2本なら問題ない。Nottaは月120分、Otter.aiは月600分が無料枠の目安となる（2026年3月時点）。

会社の機密情報を含む会議の録音をAIに渡してよいか？

クラウド型サービス（Google AI Studio、Notta、Otter.aiなど）は音声データがサーバーに送信されるため、社内のセキュリティポリシーを必ず確認すべきだ。機密性が高い場合は、Whisperのローカル版（PC内だけで処理し外部に送信されない構成）の利用が妥当である。

ChatGPTに直接音声ファイルを渡して文字起こしできるか？

2026年3月時点では、ChatGPTのWeb版・アプリ版に音声ファイルをアップロードして文字起こしする機能は存在しない。OpenAIの音声認識モデル「Whisper」またはOpenAI APIの「GPT-4o Transcribe」で先に文字起こしし、その結果をChatGPTに渡して要約・整形する2段運用となる。

日本語と英語が混ざった音声でも文字起こしできるか？

GeminiやWhisperは多言語対応のため、日英混在音声でも認識可能である。ただし切り替わりタイミングで誤認識する場合があるため、プロンプトで「日本語と英語が混在しています」と事前に伝えると精度が安定する。

参考文献

Google AI Studio — Google, 2026年
Whisper - Robust Speech Recognition via Large-Scale Weak Supervision — OpenAI, GitHub
Notta - AI文字起こしサービス — Notta株式会社
AutoMemo（オートメモ） — ソースネクスト株式会社
Otter.ai - AI Meeting Assistant — Otter.ai, Inc.