Back

在本地運行 Minimax M2 的完整指南

1. 為什麼要本地部署 Minimax M2?

  • 隱私安全:所有資料都在本機處理,無需上傳到雲端。
  • 延遲低:直接使用本地 GPU,響應時間遠低於雲端 API。
  • 可控制成本:一次性購買硬體,長期使用不再產生 API 訂閱費。
  • 可擴展性:可根據硬體配置自由調整批次大小、量化級別等。

Minimax M2 是一款 230 B 的 MoE 模型,激活參數約 10 B。

2. 系統與硬體需求

需求 建議配置
GPU 支援 CUDA 的 NVIDIA GPU,至少 100 GB VRAM
或者 支援 MLX 的 Apple MAC Studio,至少配備 128 GB 統一記憶體
儲存 SSD(500 GB 以上)

以上配置可確保在 Q4_K_M 量化模式下順暢推理,若使用更高品質量化(例如 Q8_K),請相應增加 VRAM。

3. 下載與安裝前置工具

3.1 Hugging Face - 下載 Minimax M2

  1. 下載 huggingface-hub。
    pip install huggingface-hub
  2. 註冊或登入 Hugging Face 帳號。
  3. 從 huggingface-hub 下載原始模型檔案(.safetensors 檔)。
    huggingface-cli download MiniMaxAI/MiniMax-M2 --local-dir /path/to/Minimax-M2

提示:模型檔案大約 220 GB,請確保網速穩定且有足夠磁碟空間。

3.2 Github - 下載 llama.cpp

  1. 打開終端(或 PowerShell),執行以下指令 clone repo:
    git clone https://github.com/ggml-org/llama.cpp && cd llama.cpp
  2. 建立編譯環境。
    cmake -B build
    cmake --build build --config Release

llama.cpp 提供了將各種模型轉換為 gguf 格式、量化以及推理伺服器的工具。

3.3 Github - 下載 Open WebUI

  1. 進入 Open WebUI 專案:
    git clone https://github.com/open-webui/open-webui.git && cd open-webui
  2. 按照官方說明安裝。

Open WebUI 是一個前端 UI,允許你通過瀏覽器調用 llama.cpp 的本地 API。

4. 模型轉換與量化

  1. 轉換為 gguf
  2. llama.cpp 目錄下執行:
    ./convert_hf_to_gguf.py /path/to/Minimax-M2 --outfile /output/path/Minimax-M2.gguf --outtype f16

    這一步會將原始模型轉為 llama.cpp 可讀的 gguf 格式。

  3. 量化(可選)
  4. 若想減少 VRAM 使用量,建議量化到 Q4_K_M(4-bit 量化,能保持較好效果):
    ./build/bin/llama-quantize /output/path/Minimax-M2.gguf /output/path/Minimax-M2-Q4_K_M.gguf Q4_K_M

量化後的檔案大小大約 1/4~1/2 原始大小。

注意:量化會略微降低推理品質,建議先測試在 8K/16K context 的樣本效果再決定是否量化。

5. 啟動 llama.cpp 伺服器

  1. 啟動伺服器並掛載量化模型:
    ./build/bin/llama-server -m /output/path/Minimax-M2-Q4_K_M.gguf --host 127.0.0.1 --port 8080 --n_ctx 32768

--n_ctx:上下文長度。

伺服器啟動後,會在 http://127.0.0.1:8080/v1/chat/completions 提供 OpenAI 風格 API。

6. 設定 Open WebUI 連線

  1. 開啟 Open WebUI 網頁(預設 http://localhost:3000)。
  2. 在「OpenAI API 設定」中輸入:
  3. 參數
    API Base URL http://127.0.0.1:8080/v1
    API Key 空白
  4. 儲存設定後,即可在 UI 中使用 Minimax M2 進行對話、問答、寫作等。

7. 常見問題排查

問題 可能原因 解決方案
伺服器啟動失敗 GPU 驅動程式未安裝或 CUDA 不匹配 安裝對應 CUDA 版本,確認 nvcc --version
回應過慢 VRAM 容量過低 將值調高,或使用更大 VRAM 容量的 GPU
模型不完整載入 gguf 檔案損壞 重新轉換或下載
Open WebUI 連線失敗 連接埠被佔用 變更 --port 或關閉其他服務

8. 小結

  1. 下載模型 => 下載工具 => 轉換 => 量化 => 啟動伺服器 => 連線 UI。
  2. 每一步都有官方文件作支援,若遇到困難可參考 llama.cpp 與 Open WebUI 的 Github issue。
  3. 本地部署不僅保障隱私,也讓你能自由調整模型參數,發掘 Minimax M2 的更多潛力。