在本地運行 Minimax M2 的完整指南

1. 為什麼要本地部署 Minimax M2？

Minimax M2 是一款 230 B 的 MoE 模型，激活參數約 10 B。

需求	建議配置
GPU	支援 CUDA 的 NVIDIA GPU，至少 100 GB VRAM 或者支援 MLX 的 Apple MAC Studio，至少配備 128 GB 統一記憶體
儲存	SSD（500 GB 以上）

以上配置可確保在 Q4_K_M 量化模式下順暢推理，若使用更高品質量化（例如 Q8_K），請相應增加 VRAM。

下載 huggingface-hub。
pip install huggingface-hub
註冊或登入 Hugging Face 帳號。
從 huggingface-hub 下載原始模型檔案（.safetensors 檔）。
huggingface-cli download MiniMaxAI/MiniMax-M2 --local-dir /path/to/Minimax-M2

提示：模型檔案大約 220 GB，請確保網速穩定且有足夠磁碟空間。

打開終端（或 PowerShell），執行以下指令 clone repo：
git clone https://github.com/ggml-org/llama.cpp && cd llama.cpp
建立編譯環境。
cmake -B build cmake --build build --config Release

llama.cpp 提供了將各種模型轉換為 gguf 格式、量化以及推理伺服器的工具。

進入 Open WebUI 專案：
git clone https://github.com/open-webui/open-webui.git && cd open-webui
按照官方說明安裝。

Open WebUI 是一個前端 UI，允許你通過瀏覽器調用 llama.cpp 的本地 API。

在 llama.cpp 目錄下執行：
./convert_hf_to_gguf.py /path/to/Minimax-M2 --outfile /output/path/Minimax-M2.gguf --outtype f16

這一步會將原始模型轉為 llama.cpp 可讀的 gguf 格式。

若想減少 VRAM 使用量，建議量化到 Q4_K_M（4-bit 量化，能保持較好效果）：
./build/bin/llama-quantize /output/path/Minimax-M2.gguf /output/path/Minimax-M2-Q4_K_M.gguf Q4_K_M

量化後的檔案大小大約 1/4~1/2 原始大小。

注意：量化會略微降低推理品質，建議先測試在 8K/16K context 的樣本效果再決定是否量化。

啟動伺服器並掛載量化模型：
./build/bin/llama-server -m /output/path/Minimax-M2-Q4_K_M.gguf --host 127.0.0.1 --port 8080 --n_ctx 32768

--n_ctx：上下文長度。

伺服器啟動後，會在 http://127.0.0.1:8080/v1/chat/completions 提供 OpenAI 風格 API。

參數	值
API Base URL	http://127.0.0.1:8080/v1
API Key	空白