Ollama似乎不再提供200b以上新模型下載,如何部署?
近日 Ollama 提供的新模型裏面,參數量較大的版本都只提供 cloud 版本。其實當初用 Ollama 都是想在本地裝置使用 AI LLM,用 cloud 的話倒不如用其他網上服務。有甚麼辦法可以繼續在 Ollama 使用「大」模型呢?
Huggingface 是 AI 研究員的集散地,其重要性絕對不亞於開發者的 Github 。在 Hugging face,用戶可以下載到其他開放模型。接下來,我會以 google/gemma-3-1b-it 為例教大家如何從 Hugging face 下載所需檔案並在 Ollama 使用。
1. 找到你想運行的「大」模型
雖然 Ollama 官方已把 200b 以上的模型限制在 cloud,實際上你仍可以把它們從 Hugging Face
下載下來再手動載入。
- 進入 Hugging Face
搜尋你需要的模型(例如
google/gemma-3-1b-it )。
- 完成下載後,將檔案放在本機可以存取的資料夾(例如 ~/gemma-3-1b-it/)。
如果你想更快速地下載多個模型檔,可以使用 Hugging Face CLI:
huggingface-cli download google/gemma-3-1b-it --local-dir ~/gemma-3-1b-it/
(需要安裝 huggingface_hub 套件)
2. 轉換為 gguf 文件
你需要先把模型做 fp16 量化 以便導入到 Ollama。
轉換:使用 llama.cpp 的
convert_hf_to_gguf.py 工具
git clone https://github.com/ggml-org/llama.cpp.git
python3 llama.cpp/convert_hf_to_gguf.py ~/gemma-3-1b-it/ --outfile ~/gemma-3-1b-it.gguf --outtype f16 --model-name gemma-3-1b-it
這些步驟會顯著降低模型大小,讓它能在 4 GB 的 GPU 或 CPU 上順利載入。
3. 用 Ollama 將模型載入本地服務
一旦你得到 .gguf 檔案,就可以直接用 Ollama 的 create 指令。
-
編寫 Modelfile
FROM ./gemma-3-1b-it.gguf
並儲存到~/Modelfile。 - 導入模型
ollama create gemma3-it:1b -f ~/Modelfile --quantize q4_K_M
這會把模型轉換成 Ollama 能夠識別的格式,並進一步量化成 Q4_K_M ,再放在內部資料夾。 - 使用模型
ollama run --verbose gemma3-it:1b
你就可以直接在命令列或 API 呼叫中使用這個「大」模型。
4. 小結
- Hugging Face 是下載「大」模型的首選平台;
- 透過 量化,可以把 200b 以上模型縮小到在本地上運行;
- 使用
ollama create將模型載入,並用ollama run進行本地推論。
雖然官方已將這些模型鎖定於 cloud,但只要你願意花點時間手動處理模型檔案,Ollama 仍能讓你在本地享受超大模型的力量。祝你部署順利,模型用得愉快!