Ollama似乎不再提供200b以上新模型下載，如何部署？

近日 Ollama 提供的新模型裏面，參數量較大的版本都只提供 cloud 版本。其實當初用 Ollama 都是想在本地裝置使用 AI LLM，用 cloud 的話倒不如用其他網上服務。有甚麼辦法可以繼續在 Ollama 使用「大」模型呢？

Huggingface 是 AI 研究員的集散地，其重要性絕對不亞於開發者的 Github 。在 Hugging face，用戶可以下載到其他開放模型。接下來，我會以 google/gemma-3-1b-it 為例教大家如何從 Hugging face 下載所需檔案並在 Ollama 使用。

1. 找到你想運行的「大」模型

雖然 Ollama 官方已把 200b 以上的模型限制在 cloud，實際上你仍可以把它們從 Hugging Face 下載下來再手動載入。
- 進入 Hugging Face 搜尋你需要的模型（例如 google/gemma-3-1b-it ）。
- 完成下載後，將檔案放在本機可以存取的資料夾（例如 ~/gemma-3-1b-it/）。

如果你想更快速地下載多個模型檔，可以使用 Hugging Face CLI：
huggingface-cli download google/gemma-3-1b-it --local-dir ~/gemma-3-1b-it/
（需要安裝 huggingface_hub 套件）

2. 轉換為 gguf 文件

你需要先把模型做 fp16 量化 以便導入到 Ollama。
轉換：使用 llama.cpp 的 convert_hf_to_gguf.py 工具
git clone https://github.com/ggml-org/llama.cpp.git python3 llama.cpp/convert_hf_to_gguf.py ~/gemma-3-1b-it/ --outfile ~/gemma-3-1b-it.gguf --outtype f16 --model-name gemma-3-1b-it

這些步驟會顯著降低模型大小，讓它能在 4 GB 的 GPU 或 CPU 上順利載入。

3. 用 Ollama 將模型載入本地服務

一旦你得到 .gguf 檔案，就可以直接用 Ollama 的 create 指令。

編寫 Modelfile
FROM ./gemma-3-1b-it.gguf
並儲存到 ~/Modelfile。
導入模型
ollama create gemma3-it:1b -f ~/Modelfile --quantize q4_K_M
這會把模型轉換成 Ollama 能夠識別的格式，並進一步量化成 Q4_K_M ，再放在內部資料夾。
使用模型
ollama run --verbose gemma3-it:1b
你就可以直接在命令列或 API 呼叫中使用這個「大」模型。

4. 小結

Hugging Face 是下載「大」模型的首選平台；
透過量化，可以把 200b 以上模型縮小到在本地上運行；
使用 ollama create 將模型載入，並用 ollama run 進行本地推論。

雖然官方已將這些模型鎖定於 cloud，但只要你願意花點時間手動處理模型檔案，Ollama 仍能讓你在本地享受超大模型的力量。祝你部署順利，模型用得愉快！