きっかけはChatGPTのAPI明細だった
2025年の秋、ChatGPTの有料プランをそこそこ使っていた自分のAPI明細を見て、ふと思った。「この金額、毎月払い続けるのか」と。メイン機にはRTX 4070 Super(VRAM 12GB)が載っている。ゲームの合間に持て余しているこのGPUパワー、AIに回せないか。そこで手を出したのがOllamaだったんですよね。
Ollamaは、自分のPC上でChatGPTのような大規模言語モデル(LLM)を動かすための無料ツール。インストールからチャット開始まで早ければ10分で終わる。ただし「どのモデルが快適に動くか」はGPUのVRAM容量でほぼ決まるので、そこだけは先に押さえておきたい。
Ollamaのインストール手順(Windows)
手順はシンプルなんです。Ollama公式のダウンロードページからWindows版インストーラーを落として実行する。セットアップウィザードに従えば自動でPATHも通るし、NVIDIAのGPUなら大半は自動認識してくれる。
インストールが終わったらPowerShellかコマンドプロンプトを開いて、以下を実行する。
ollama run qwen3:8b
初回はモデルのダウンロードに数分かかるけど、完了すれば日本語でチャットできる状態になる。自分が最初に試したのもこのQwen3の8Bモデルで、日本語の受け答えの自然さに正直驚いた。(ちなみに2026年6月時点ではQwen3.5シリーズも出ていて、Qwen3 Swallowのように日本語特化版も登場している)
GPUがちゃんと使われているかは、以下のコマンドで確認できる。
ollama ps
「GPU」の列に数字が出ていればOK。0%のままだとCPUだけで動いているので、NVIDIAの場合は公式サイトからドライバを最新版にしておくこと。15年やっててもドライバ周りは毎回ひと手間かかる。
VRAM別:実際に回して分かったモデルサイズの限界
ローカルLLMで一番知りたいのは「自分のGPUでどこまで動くか」だと思う。自分のメイン機(Ryzen 9 7900X + RTX 4070 Super、VRAM 12GB)で実際にQwen3の8B・14B・32Bを回してみた結果がこれなんです。
| モデルサイズ | VRAM使用量(Q4_K_M量子化) | 生成速度 | 体感 |
|---|---|---|---|
| 8B(パラメータ80億) | 約5.5GB | 約50トークン/秒 | 快適。普段使いに十分 |
| 14B(パラメータ140億) | 約9.5GB | 約20トークン/秒 | 実用圏内。長文生成は少し待つ |
| 32B(パラメータ320億) | 約19GB(溢れる) | 5トークン/秒以下 | CPUオフロードで激遅 |
8Bモデルは文句なし。チャットの応答が人間の読む速度より早く返ってくるのでストレスがない。14Bになると回答の質は明確に上がるけれど、長い文章を生成させると「ちょっと待つな」という感覚が出てくる。ただ、まだ実用の範囲内。
問題は32B。VRAM 12GBでは到底収まらないので、溢れた分がメインメモリ(CPU側)に逃げる。これが致命的に遅い。ぶっちゃけ、32Bモデルを快適に動かしたいならRTX 4090(VRAM 24GB)クラスが必要になる。結局のところ、12GB VRAMの実用上限は14Bモデルまで。これが自分の結論だったりする。
GPU別のおすすめモデルと注意点
GPU別に「まず試すならこれ」を整理した。いずれもQ4_K_M量子化(モデルのサイズを圧縮する手法)での目安なんですよね。
| VRAM | 代表的なGPU | おすすめモデル | 備考 |
|---|---|---|---|
| 6〜8GB | RTX 4060 / RTX 3060 | Qwen3:8B / Phi-4-mini | 8Bが上限。コンテキスト長は短め推奨 |
| 10〜12GB | RTX 4070 Super / RTX 3080 | Qwen3:14B / Gemma 3:12B | 14Bが快適圏に入る |
| 16GB | RTX 5060 Ti 16GB / RTX 4080 | Qwen3:32B / Deepseek R1:32B | 32Bが実用圏に |
| 24GB | RTX 4090 / RTX 5080 | Qwen3:32B(Q8量子化) | 32Bを高品質で回せる余裕 |
注意点がひとつ。VRAMはモデル本体だけでなく、チャットの文脈を保持するKVキャッシュにも消費される。会話が長くなるほどキャッシュが膨らむので、モデルサイズぎりぎりのVRAMだと途中からCPUオフロードが始まって急に遅くなる。VRAM容量から2〜4GBは余裕を見ておくのが安全なんです。
あと、量子化の種類でもVRAM消費は変わる。Q4_K_Mは圧縮率が高くてVRAMに優しいけれど、回答の精度は少し落ちる。VRAMに余裕があるならQ6やQ8の量子化を選ぶと品質が上がる。このあたりはGPUとの相談になる。
使ってみて分かったメリットと現実的な限界
実用面で一番大きかったのは、インターネット接続なしで動く点。工房で検証機の設定手順をAIに聞きたいとき、ネットが不安定でも手元で相談できるのは便利だった。それから、業務の機密情報を外部サーバーに送らずに済むという安心感も大きい。セキュリティの観点で社外のクラウドAIを使いにくい職場でも、ローカルなら問題にならない。
電気代も気になるところだけど、チャット程度の負荷ならGPUの消費電力は100〜150W前後。1日2時間使っても月の電気代は100〜200円程度の上乗せで済む計算になる。ChatGPTの月額プラン(2026年6月時点で月額20ドル、約3,000円)と比べれば十分安い。
逆にデメリットは、GPT-4oやClaude Opus級の回答品質を望めないこと。8Bモデルは「そこそこ賢いアシスタント」くらいの位置づけで、複雑な推論や専門的な分析には限界がある。クラウドのAPIとローカルLLMは用途で使い分けるのが現実的な落とし所だと思っている。
ChatGPT風のチャット画面がほしければ、Open WebUIという無料のWebインターフェースをOllamaと組み合わせるとブラウザから使える。Docker環境があれば導入も手軽なんですよね。
FAQ
OllamaはMacでも動きますか?
動く。Appleシリコン(M1以降)搭載のMacなら統合メモリがVRAM代わりになるので、メモリ16GBのMacBook AirでもQwen3:8B程度は快適に動作する。Ollama公式サイトからmacOS版をダウンロードすればいい。
GPUがないパソコンでも動きますか?
CPU単体でも一応動くが、生成速度が極端に遅くなる。8Bモデルでも数トークン/秒まで落ちるので実用的とは言いにくい。最低でもVRAM 6GB以上のGPUがあったほうがいい。
ChatGPTと同じくらい賢いモデルを動かすにはどんなスペックが必要ですか?
GPT-4o相当の性能を狙うなら70B〜100B級のモデルが必要で、VRAM 48GB以上(NVIDIA A6000やRTX 6000 Adaクラス)が目安になる。一般のゲーミングPCでは現実的ではないので、高品質が必要な用途はクラウドAPIと使い分けるのが現実的。
会社の業務データを入れても情報漏洩のリスクはありませんか?
ローカルLLMは自分のPC内だけで動作するため、外部サーバーにデータが送信されることはない。クラウドAIと違い、社外秘の文書や顧客データを入力しても通信が発生しない点がローカルLLMの最大のメリットのひとつ。
参考文献
- Ollama公式サイト — Ollama
- ollama/ollama リポジトリ — GitHub
- Ollama VRAM Requirements: Complete 2026 Guide to GPU Memory for Local LLMs — LocalLLM.in
- Qwen3 Swallow — Swallow LLM, 2026年
- GeForce RTX 4070 SUPER 仕様 — NVIDIA






