自分のメイン機(Ryzen 9 7900X+RTX 4070 Super)にOllamaを入れて、ローカルLLMを走らせてみたのが2025年の秋ごろ。7Bモデルならサクサク動くのに、32Bクラスを試した瞬間、1文字出るのに3秒以上かかって「これ実用じゃないな」と悟ったんですよね。結局のところ、ローカルLLMの快適さは**ほぼGPUのVRAM容量で決まる**。CPUやメモリも関係はするけど、最優先で見るべきはVRAMだったりする。

Xでも「自分のパソコンでAI動かしたけど遅すぎて使えない」という声を見かけたので、今回はスペック別に「どのサイズのモデルなら快適に動くか」を整理してみます。

ローカルLLMの速度を決めるのはVRAMの容量

ChatGPTやClaudeはクラウドのサーバーで動いているから速い。自分のPCで同じことをやろうとすると、AIモデルの「重み」を丸ごとGPUのメモリ(VRAM)に載せる必要があります。

ざっくり言うと、モデルのパラメータ数が大きいほど賢いけど重い。そしてVRAMに収まりきらないぶんはCPU側のメモリに溢れて、そこで極端に遅くなる。これが「インストールできたけど遅すぎて使えない」の正体なんです。

PCショップ時代、「メモリ8GBで十分ですよね?」って聞かれるたびに用途を確認していたけど、2026年のローカルLLM用途だとGPUのVRAMこそが最重要スペック。ここを見ずにCPUだけ奮発しても意味がない。

VRAM容量別:動かせるモデルサイズの目安

2026年5月時点の主要モデル(Qwen 3、Llama 3.1、Gemma 3など)を4bit量子化(Q4_K_M)で動かす前提での目安がこれ。

GPU(VRAM)動かせるモデルサイズ体感速度代表GPU
4〜6GB1B〜4B日常チャットならギリ実用GTX 1660 Super, RTX 3050
8GB7〜8B40トークン/秒前後で快適RTX 3060 8GB, RTX 4060
12GB8〜14B要約・翻訳も実用的RTX 3060 12GB, RTX 4070
16〜24GB14〜32B長文生成もストレスなしRTX 4070 Super, RTX 4090
GPU無し(CPU推論)1B〜7B3〜8トークン/秒で遅め

自分のRTX 4070 Super(12GB VRAM)だと、Qwen 3の8Bモデルが50トークン/秒ぐらい出る。14Bだと20トークン/秒に落ちるけど実用範囲内。ただし32Bを無理に突っ込むとVRAMが溢れてCPUオフロードが発生し、体感5トークン/秒以下まで落ちます。

古いPCでもローカルLLMを動かす方法

GPUが古い、あるいはそもそもグラボを積んでいないノートPCでも、完全に諦める必要はない。

量子化で軽くする

量子化(Quantization)とは、モデルの数値精度を落としてファイルサイズとメモリ使用量を圧縮する技術。OllamaでダウンロードされるモデルはデフォルトでQ4_K_M(4bit量子化)が適用済みなので、特別な設定は不要です。

たとえば8Bモデルの場合、フル精度(FP16)なら16GB必要なところが、Q4_K_Mだと約5〜6GBで済む。体感の品質低下もほとんどない。

CPU推論でも動くモデルを選ぶ

GPU無しでCPU推論する場合、メインメモリ(RAM)が16GB以上あれば7Bモデルは動く。ただし速度は3〜8トークン/秒程度で、ChatGPTのようにスラスラとは出てこない。

15年やっててもこの設定は毎回ググるんですが、OllamaはCPU推論をデフォルトでサポートしているので、ollama run qwen3:1.7b と打てばGPU無しでも即座に動きます。Qwen 3の1.7BモデルはQwen 2.5の3B相当の性能があるとされていて、古いPCの「とりあえず試す」用途には最適。

Ollamaのインストールと最初の一歩

Ollamaのセットアップは拍子抜けするほど簡単なんですよね。

  1. Ollama公式サイトからインストーラーをダウンロードして実行
  2. コマンドプロンプト(またはターミナル)を開く
  3. ollama run qwen3:8b を入力してEnter
  4. 初回は約5GBのダウンロードが走る。2回目以降はオフラインでも起動できる

これだけで自分専用のAIチャットが手元で動く。入力した内容がクラウドに送信されないから、仕事の機密文書を要約させたい場合に重宝します。

(ちなみにGUIが欲しい人はLM Studioという選択肢もある。こちらはマウス操作だけでモデルを選んで会話できるので、コマンドラインに抵抗がある人向け)

「遅い」と感じたときの切り分けチェック

ローカルLLMを入れたけど遅い——その原因を切り分けるポイントを3つ。

1. VRAMに収まっているか確認する
Windowsなら nvidia-smi コマンド、またはタスクマネージャーの「パフォーマンス」→「GPU」でVRAM使用量を確認。モデルロード後にVRAMが100%近くに張り付いていたら、モデルサイズを1段下げる。

2. CPUオフロードが発生していないか
Ollamaのログに offloading N layers to CPU と出ていたら、その分だけGPUに載りきっていない。レイヤー数が多いほど遅くなる。

3. そもそもGPUを認識しているか
ollama ps で実行中モデルの情報を確認。ProcessorがCPUのみになっていたら、GPUドライバが古い可能性あり。NVIDIAなら最新のGame Readyドライバを入れ直す。自分の自作機でもドライバ更新後にGPU推論に切り替わったケースがありました。

FAQ

ローカルLLMはインターネット接続なしで使える?

モデルの初回ダウンロード時だけネット接続が必要です。ダウンロード完了後はオフラインで動作します。出張先や機密環境で使いたい場合に向いています。

MacBookでもローカルLLMは動く?

Apple Silicon(M1〜M4)搭載のMacならOllamaが対応しています。ユニファイドメモリをGPUメモリとして使えるため、メモリ16GBのMacBook Airでも8Bモデルが快適に動きます。メモリ32GB以上なら14〜32Bも実用圏内です。

ChatGPTの無料版と比べてローカルLLMの回答品質はどう?

8Bクラスのモデルは日常的な質問や文章の要約には十分ですが、複雑な推論や最新情報への回答ではGPT-4oに劣ります。14B以上になるとかなり実用的で、プライバシー重視なら十分な選択肢です。

電気代はどのくらいかかる?

推論中のGPU消費電力は、RTX 4060で約115W、RTX 4070 Superで約220W程度。1日1時間使う程度なら月の電気代増加は100〜200円前後です。24時間サーバーとして回し続けるわけではないので、気にするレベルではありません。

参考文献