「自分のPCでAIを動かしたら遅すぎる」？ローカルLLMに必要なGPU・VRAMの目安とスペック別モデルの選び方【Ollama・2026年版】

自分のメイン機（Ryzen 9 7900X＋RTX 4070 Super）にOllamaを入れて、ローカルLLMを走らせてみたのが2025年の秋ごろ。7Bモデルならサクサク動くのに、32Bクラスを試した瞬間、1文字出るのに3秒以上かかって「これ実用じゃないな」と悟ったんですよね。結局のところ、ローカルLLMの快適さは**ほぼGPUのVRAM容量で決まる**。CPUやメモリも関係はするけど、最優先で見るべきはVRAMだったりする。

Xでも「自分のパソコンでAI動かしたけど遅すぎて使えない」という声を見かけたので、今回はスペック別に「どのサイズのモデルなら快適に動くか」を整理してみます。

ローカルLLMの速度を決めるのはVRAMの容量

ChatGPTやClaudeはクラウドのサーバーで動いているから速い。自分のPCで同じことをやろうとすると、AIモデルの「重み」を丸ごとGPUのメモリ（VRAM）に載せる必要があります。

ざっくり言うと、モデルのパラメータ数が大きいほど賢いけど重い。そしてVRAMに収まりきらないぶんはCPU側のメモリに溢れて、そこで極端に遅くなる。これが「インストールできたけど遅すぎて使えない」の正体なんです。

PCショップ時代、「メモリ8GBで十分ですよね？」って聞かれるたびに用途を確認していたけど、2026年のローカルLLM用途だとGPUのVRAMこそが最重要スペック。ここを見ずにCPUだけ奮発しても意味がない。

VRAM容量別：動かせるモデルサイズの目安

2026年5月時点の主要モデル（Qwen 3、Llama 3.1、Gemma 3など）を4bit量子化（Q4_K_M）で動かす前提での目安がこれ。

GPU（VRAM）	動かせるモデルサイズ	体感速度	代表GPU
4〜6GB	1B〜4B	日常チャットならギリ実用	GTX 1660 Super, RTX 3050
8GB	7〜8B	40トークン/秒前後で快適	RTX 3060 8GB, RTX 4060
12GB	8〜14B	要約・翻訳も実用的	RTX 3060 12GB, RTX 4070
16〜24GB	14〜32B	長文生成もストレスなし	RTX 4070 Super, RTX 4090
GPU無し（CPU推論）	1B〜7B	3〜8トークン/秒で遅め	—

自分のRTX 4070 Super（12GB VRAM）だと、Qwen 3の8Bモデルが50トークン/秒ぐらい出る。14Bだと20トークン/秒に落ちるけど実用範囲内。ただし32Bを無理に突っ込むとVRAMが溢れてCPUオフロードが発生し、体感5トークン/秒以下まで落ちます。

[PR] Amazon

「グラフィックボード」をAmazonで見る

Amazonのアソシエイトとして、ワカラン？は適格販売により収入を得ています。

古いPCでもローカルLLMを動かす方法

GPUが古い、あるいはそもそもグラボを積んでいないノートPCでも、完全に諦める必要はない。

量子化で軽くする

量子化（Quantization）とは、モデルの数値精度を落としてファイルサイズとメモリ使用量を圧縮する技術。OllamaでダウンロードされるモデルはデフォルトでQ4_K_M（4bit量子化）が適用済みなので、特別な設定は不要です。

たとえば8Bモデルの場合、フル精度（FP16）なら16GB必要なところが、Q4_K_Mだと約5〜6GBで済む。体感の品質低下もほとんどない。

CPU推論でも動くモデルを選ぶ

GPU無しでCPU推論する場合、メインメモリ（RAM）が16GB以上あれば7Bモデルは動く。ただし速度は3〜8トークン/秒程度で、ChatGPTのようにスラスラとは出てこない。

15年やっててもこの設定は毎回ググるんですが、OllamaはCPU推論をデフォルトでサポートしているので、ollama run qwen3:1.7b と打てばGPU無しでも即座に動きます。Qwen 3の1.7BモデルはQwen 2.5の3B相当の性能があるとされていて、古いPCの「とりあえず試す」用途には最適。

Ollamaのインストールと最初の一歩

Ollamaのセットアップは拍子抜けするほど簡単なんですよね。

Ollama公式サイトからインストーラーをダウンロードして実行
コマンドプロンプト（またはターミナル）を開く
ollama run qwen3:8b を入力してEnter
初回は約5GBのダウンロードが走る。2回目以降はオフラインでも起動できる

これだけで自分専用のAIチャットが手元で動く。入力した内容がクラウドに送信されないから、仕事の機密文書を要約させたい場合に重宝します。

（ちなみにGUIが欲しい人はLM Studioという選択肢もある。こちらはマウス操作だけでモデルを選んで会話できるので、コマンドラインに抵抗がある人向け）

「遅い」と感じたときの切り分けチェック

ローカルLLMを入れたけど遅い——その原因を切り分けるポイントを3つ。

1. VRAMに収まっているか確認する
Windowsなら nvidia-smi コマンド、またはタスクマネージャーの「パフォーマンス」→「GPU」でVRAM使用量を確認。モデルロード後にVRAMが100%近くに張り付いていたら、モデルサイズを1段下げる。

2. CPUオフロードが発生していないか
Ollamaのログに offloading N layers to CPU と出ていたら、その分だけGPUに載りきっていない。レイヤー数が多いほど遅くなる。

3. そもそもGPUを認識しているか
ollama ps で実行中モデルの情報を確認。ProcessorがCPUのみになっていたら、GPUドライバが古い可能性あり。NVIDIAなら最新のGame Readyドライバを入れ直す。自分の自作機でもドライバ更新後にGPU推論に切り替わったケースがありました。

FAQ

ローカルLLMはインターネット接続なしで使える？

モデルの初回ダウンロード時だけネット接続が必要です。ダウンロード完了後はオフラインで動作します。出張先や機密環境で使いたい場合に向いています。

MacBookでもローカルLLMは動く？

Apple Silicon（M1〜M4）搭載のMacならOllamaが対応しています。ユニファイドメモリをGPUメモリとして使えるため、メモリ16GBのMacBook Airでも8Bモデルが快適に動きます。メモリ32GB以上なら14〜32Bも実用圏内です。

ChatGPTの無料版と比べてローカルLLMの回答品質はどう？

8Bクラスのモデルは日常的な質問や文章の要約には十分ですが、複雑な推論や最新情報への回答ではGPT-4oに劣ります。14B以上になるとかなり実用的で、プライバシー重視なら十分な選択肢です。

電気代はどのくらいかかる？

推論中のGPU消費電力は、RTX 4060で約115W、RTX 4070 Superで約220W程度。1日1時間使う程度なら月の電気代増加は100〜200円前後です。24時間サーバーとして回し続けるわけではないので、気にするレベルではありません。

参考文献

Ollama公式サイト — Ollama, 2024-2026
Qwen 3 — Ollama Model Library — Ollama, 2026年4月
ローカルLLMに必要なPCスペックは？モデル別VRAM要件 — TDCソフト, 2026年
ノートPCで動くローカルLLM完全ガイド — SIOS Tech Lab, 2025年12月
LM Studio — Discover, download, and run local LLMs — LM Studio, 2024-2026

「自分のPCでAIを動かしたら遅すぎる」？ローカルLLMに必要なGPU・VRAMの目安とスペック別モデルの選び方【Ollama・2026年版】

ローカルLLMの速度を決めるのはVRAMの容量

VRAM容量別：動かせるモデルサイズの目安

古いPCでもローカルLLMを動かす方法

量子化で軽くする

CPU推論でも動くモデルを選ぶ

Ollamaのインストールと最初の一歩

「遅い」と感じたときの切り分けチェック

FAQ

ローカルLLMはインターネット接続なしで使える？

MacBookでもローカルLLMは動く？

ChatGPTの無料版と比べてローカルLLMの回答品質はどう？

電気代はどのくらいかかる？

参考文献

この記事が役に立ったらシェアお願いします！

コメント (0)

コメントを投稿

最新情報をお届けします

関連記事

パソコンのスペック表が暗号に見える？CPU・メモリ・SSDの数字の意味と用途別の選び方【2026年版】

自宅のゲーミングPCでChatGPTみたいなAIを動かせる？Ollamaの始め方とVRAM別モデルサイズの実用限界【2026年版】

「AIパソコン」って普通のPCと何が違うの？NPU・Copilot+ PCの仕組みと今のPCで足りるかの判断基準【2026年5月版】

Windows 11のパソコンが急に重い・遅くなった？原因6つと今すぐ試せる高速化の対処法【2026年版】

GPUドライバを更新したら画面が真っ暗・ちらつく？DDUで完全削除してクリーンインストールする手順【Windows 11・NVIDIA / AMD】

Windows 11でChromeが「STATUS_ACCESS_VIOLATION」でクラッシュを繰り返す？GPUドライバの切り分けとANGLEバックエンド変更で直す手順【24H2対応】

ニュースレター