Back

Ollama似乎不再提供200b以上新模型下載,如何部署?

近日 Ollama 提供的新模型裏面,參數量較大的版本都只提供 cloud 版本。其實當初用 Ollama 都是想在本地裝置使用 AI LLM,用 cloud 的話倒不如用其他網上服務。有甚麼辦法可以繼續在 Ollama 使用「大」模型呢?

Huggingface 是 AI 研究員的集散地,其重要性絕對不亞於開發者的 Github 。在 Hugging face,用戶可以下載到其他開放模型。接下來,我會以 google/gemma-3-1b-it 為例教大家如何從 Hugging face 下載所需檔案並在 Ollama 使用。

1. 找到你想運行的「大」模型

雖然 Ollama 官方已把 200b 以上的模型限制在 cloud,實際上你仍可以把它們從 Hugging Face 下載下來再手動載入。
- 進入 Hugging Face 搜尋你需要的模型(例如 google/gemma-3-1b-it )。
- 完成下載後,將檔案放在本機可以存取的資料夾(例如 ~/gemma-3-1b-it/)。

如果你想更快速地下載多個模型檔,可以使用 Hugging Face CLI:
huggingface-cli download google/gemma-3-1b-it --local-dir ~/gemma-3-1b-it/
(需要安裝 huggingface_hub 套件)

2. 轉換為 gguf 文件

你需要先把模型做 fp16 量化 以便導入到 Ollama。
轉換:使用 llama.cpp 的 convert_hf_to_gguf.py 工具
git clone https://github.com/ggml-org/llama.cpp.git

python3 llama.cpp/convert_hf_to_gguf.py ~/gemma-3-1b-it/ --outfile ~/gemma-3-1b-it.gguf --outtype f16 --model-name gemma-3-1b-it

這些步驟會顯著降低模型大小,讓它能在 4 GB 的 GPU 或 CPU 上順利載入。

3. 用 Ollama 將模型載入本地服務

一旦你得到 .gguf 檔案,就可以直接用 Ollama 的 create 指令。

  1. 編寫 Modelfile
    FROM ./gemma-3-1b-it.gguf
    並儲存到 ~/Modelfile
  2. 導入模型
    ollama create gemma3-it:1b -f ~/Modelfile --quantize q4_K_M
    這會把模型轉換成 Ollama 能夠識別的格式,並進一步量化成 Q4_K_M ,再放在內部資料夾。
  3. 使用模型
    ollama run --verbose gemma3-it:1b
    你就可以直接在命令列或 API 呼叫中使用這個「大」模型。

4. 小結

  • Hugging Face 是下載「大」模型的首選平台;
  • 透過 量化,可以把 200b 以上模型縮小到在本地上運行;
  • 使用 ollama create 將模型載入,並用 ollama run 進行本地推論。

雖然官方已將這些模型鎖定於 cloud,但只要你願意花點時間手動處理模型檔案,Ollama 仍能讓你在本地享受超大模型的力量。祝你部署順利,模型用得愉快!