前言:Q1 量化模型是「腦死」還是寶藏?
在 r/LocalLLaMA 社群裡,有一句流傳甚廣的成見:「低於 Q3 的量化模型就是腦死(braindead)。」
這句話聽起來很有道理——把一個 7440 億參數的 MoE 大模型壓縮到 1-bit,損失掉的可都是權重資訊,怎麼可能還保持智商?但最近一篇來自 Reddit 的實測貼文,卻給了這個成見一記響亮的耳光。
測試者用 GLM-5.2 的 Q1_S 極限量化版本(平均約 1.5 位元/權重)對決 Qwen 3.6 27B 的 Q8 量化版本(約 8 位元/權重),結果不僅 Q1_S 勝出,甚至在某些維度上超越了 GLM-5.2 的完整精度(Full Precision)版本。
這篇文章就來帶你深入剖析這場測試的背景、兩款模型的技術差異,以及量化模型到底該如何在本地環境中發揮最大價值。
測試背景:同一個問題,兩套完全不同的答案
測試任務
測試者給兩款模型同一個提示詞(prompt):用 Three.js 寫一個完整的 3D 競技場小遊戲,包含 WASD 控制、鏡頭跟隨、收集品、敵人 AI、血量系統、難度遞增,以及「高品質感」的視覺效果。
硬體環境
- GPU:2× RTX 3090(每張 24GB VRAM,功耗限制 200W)
- RAM:192GB DDR5
- 推理引擎:llama.cpp + pi harness
測試結果速覽
| 項目 | Qwen 3.6 27B Q8 | GLM-5.2 Q1_S |
|---|---|---|
| 生成速度 | ~60 tps | ~3-6 tps |
| Token 消耗 | ~20k(初始)+ ~42k(含修正) | ~75k(一次到位) |
| 完成方式 | 需 3 次 follow-up 修正 | 一次成功(one-shot) |
| 遊戲可玩性 | 初始不可玩,修正後勉強可玩 | 直接可玩,含音效 |
| 思考深度 | 較淺 | 極度深度思考 |
直觀來說,Qwen 快如閃電但產出不完整;GLM-5.2 Q1_S 慢如老牛卻一次到位。這背後的原因值得深究。
選手介紹:兩款型號的技術底蘊
GLM-5.2:744B 參數的 MoE 巨獸
GLM-5.2 是智譜 AI(Zhipu AI / Z.ai)於 2026 年 6 月 13 日推出的旗艦級開源模型,定位為「長程任務專用」的程式碼生成模型。
核心規格:
- 架構: 稀疏 MoE(Mixture-of-Experts),總參數約 753B,每次 token 激活約 40B
- 上下文視窗: 1,000,000 tokens
- 輸出容量: 最高 131,072 tokens
- 授權: MIT(開源)
- 關鍵創新:
- IndexShare: 每四個稀疏注意力層共用一個 attention indexer,在 1M 上下文長度下將每 token FLOPs 降低 2.9 倍
- MTP(Multi-Token Prediction): 增強 speculative decoding,接受長度提升約 20%
- 推理模式: 雙層思考強度——「High」用於一般編程,「Max」用於複雜多步驟任務
在開源長程編程基準上,GLM-5.2 表現亮眼:
- FrontierSWE: 僅落後 Opus 4.8 約 1%,超越 GPT-5.5
- PostTrainBench: 排名第二,僅次於 Opus 4.8
- Terminal-Bench 2.1: 得分 81.0
Qwen 3.6 27B:27B 稠密模型的越級挑戰
Qwen 3.6 27B 是阿里通義千問團隊於 2026 年 4 月 22 日發布的稠密模型(Dense Model),以僅 27B 參數挑戰更大規模的 MoE 模型。
核心規格:
- 架構: 混合 Gated DeltaNet + Gated Attention
- 結構:
16 × [ 3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN) ] - 用線性注意力(Gated DeltaNet)取代了 75% 的二次自注意力
- 結構:
- 上下文視窗: 原生 262K,擴展至 1M
- 授權: Apache 2.0(可商用、微調、再分發)
- 關鍵特性:
- 在 Terminal-Bench 2.0 上得分 59.3,與 Claude 4.5 Opus 並列
- 超越同系列 397B 參數的 Qwen3.5-397B-A17B MoE 模型
- 支援 FP8 量化變體,生產環境推薦使用
為什麼拿這兩款比?
測試者的核心問題是:「當我硬體資源有限時,該選『參數多但量化低』的模型,還是『參數少但量化高』的模型?」
GLM-5.2 Q1_S 約 200GB(含上下文),Qwen 3.6 27B Q8 約 30-40GB。兩者在 VRAM 需求上有顯著差異,但 Q1_S 的極限壓縮讓它能在 2×3090 + 192GB RAM 的設定下運行。
量化技術解密:Q1_S 為什麼沒「腦死」?
Unsloth UD-IQ1_S 的魔法
測試中使用的 Q1_S 量化來自 Unsloth 的 UD(Dynamic)系列,具體路徑是 unsloth/GLM-5.2-GGUF:UD-IQ1_S。
關鍵在於,UD-IQ1_S 的平均位元/權重其實約 2.5 bit,而非字面上的 1 bit。這是因為 Unsloth 採用了動態量化策略:
- 智能層選擇: 為每一層動態調整量化類型,每個模型都有獨特的量化組合
- 權重保留: 對關鍵張量(如 attention 輸出層、FFN 門控層)保留較高精度
- 高品質校準數據: 使用超過 150 萬 token 的手動精選數據集,避免常見的維基百科校準過擬合問題
正如 Reddit 評論者 nasone32 所指出的:「UD IQ1_S 之所以不『笨』,是因為 Unsloth 非常精準地掌握了哪些張量可以壓縮、哪些不能。」
REAP 量化:為編程而生的特化
社群中還流傳著 GLM-5.2 的 REAP(Reconstruction-Aware Progressive)量化版本,這類量化在訓練階段就考慮了權重重建誤差,特別針對編碼任務優化了量化分配。
不過 REAP 版本也有缺點——ortegaalfredo 在評論中指出:「我試過的所有 GLM-5.2 REAP50 模型都會遺忘基礎知識(例如忘記 Ford 是汽車品牌),即使在 Q3 也一樣。但 Q2 非 REAP 量化則表現正常。」
換句話說,REAP 量化是「為編程而生,為編程而死」——在編碼任務上表現極佳,但在通用知識上會有所妥協。
量化型號的命名規則速查
| 命名 | 含義 | 典型位元/權重 |
|---|---|---|
| Q1_S | 極限壓縮(Smart) | ~1.5-2.0 |
| Q2_K_XL | 2-bit 大緩存 | ~2.0-2.5 |
| Q3_K_S | 3-bit 小緩存 | ~3.0-3.5 |
| Q4_K_S | 4-bit 小緩存 | ~4.0-4.5 |
| Q5_K_S | 5-bit 小緩存 | ~5.0-5.5 |
| Q6_K | 6-bit | ~6.0 |
| Q8_0 | 8-bit | ~8.0 |
| FP16 | 半精度浮點 | 16.0 |
深度分析:Q1_S 勝出的關鍵因素
1. 思考 token 預算的絕對優勢
這是本次測試最容易被忽略的變數。GLM-5.2 Q1_S 生成了約 75k tokens 的思考過程,而 Qwen 3.6 27B Q8 僅生成約 20k tokens。
正如 Reddit 用戶 ai_without_borders 所指出的:「你拿 Q1_S GLM 的 75k 思考 token 去對比 Q8 Qwen 的 20k 思考 token——這根本不是相同的推理預算。」
GLM-5.2 的架構設計讓它在「思考」階段能夠反覆檢查、修正自己的假設和程式碼,這種深度思考能力在編程任務上產生了質的差異。
2. MoE 架構的「稀疏優勢」
GLM-5.2 的 MoE 架構意味著每次 token 生成只激活約 40B 參數。即使整體參數高達 753B,每次前向傳播的實際計算量與一個 40B 稠密模型相當。這帶來了兩個好處:
- 參數密度高: 753B 的總參數意味著每個「專家」都經過大量數據訓練,即使只激活一部分,也能提供強大的能力
- 量化容忍度高: MoE 模型的每個專家都是獨立訓練的,量化誤差在專家層面被「分散」,不像稠密模型那樣集中在同一組權重
3. 提示詞與 harness 的影響
測試使用了 pi harness(一個最小化系統提示的 prompt harness),這對於思考型模型尤為重要。pi harness 的系統提示極簡,讓模型有更多 token 空間用於深度思考。
值得注意的是,Reddit 用戶 source-drifter 用相同的 prompt 在 Qwen3.6-27B-UD-Q5_K_XL 上僅用 1 次初始生成 + 1 次 console error 修正 就完成了遊戲,且速度達 110+ tps。這說明:
- 不同的 harness 和 prompt 策略會顯著影響結果
- Qwen 3.6 27B 在合適的設定下也有極強的表現
成本效益分析:本地 vs API
測試者還將 GLM-5.2 Q1_S 的本地表現與 OpenRouter 上的 API 版本進行了對比:
| 模型 | 平台 | 成本 | 表現 |
|---|---|---|---|
| GLM-5.2 Q1_S(本地) | 2×3090 | 電費 ~$0.12 | 一次成功,含音效 |
| GLM-5.2 FP(API) | OpenRouter | $0.12 | 方向反轉,11k tokens |
| Opus 4.8(API) | OpenRouter | $0.42 | 視覺上略勝一籌 |
有趣的是,GLM-5.2 的完整精度 API 版本($0.12)表現反而不如 Q1_S 本地版本——控制鍵方向反轉。測試者推測這可能是 API 提供商對思考 token 的預設限制,也可能是高量化版本反而讓模型「過度思考」了。
實戰建議:你的硬體該選什麼?
入門級(單張 12-16GB GPU)
- 推薦:Qwen 3.6 27B Q4_K_S 或 Q8_0
- 預期:快速、可靠,適合日常輔助編程
- 備選:Qwen 3.6 9B(極速,適合快速原型)
進階級(雙卡 24GB × 2 或 256GB RAM)
- 推薦:GLM-5.2 Q2_K_XL 或 Q1_S
- 預期:深度思考能力強,適合複雜編程任務
- 注意:Q1_S 速度慢但品質高,適合非即時 agentic 流程
旗艦級(4×GPU 或 512GB+ RAM)
- 推薦:GLM-5.2 Q4_K_M 或 Q2_K_XL(REAP)
- 預期:接近 API 級別表現,本地部署
- 備選:Qwen 3.6 35B-A3B(稀疏 MoE,效率極高)
雲端/混合方案
- 日常快速任務:用 Qwen 3.6 27B 本地跑
- 複雜多步驟任務:用 GLM-5.2 API(OpenRouter $1.4/M input tokens)
- 批量非即時任務:用 GLM-5.2 Q1_S 本地跑,品質天花板高
結語:量化不是劣化,而是權衡
這篇測試最核心的啟示是:「大模型 + 低量化」不等於「腦死模型」,關鍵在於找到合適的應用場景。
GLM-5.2 Q1_S 在編程任務上的表現證明,當模型足夠大、量化足夠聰明時,即使是 1-bit 也能產出高品質結果。但它不適合即時互動——3-6 tps 的速度意味著它更像是一個「深度思考的批處理引擎」,而非「對話式助手」。
而 Qwen 3.6 27B Q8 則證明了「小而美」的價值——在合理的硬體限制下,提供快速、可靠的日常編程輔助。
未來的趨勢很清晰:隨著量化技術(特別是 REAP 和 UD 系列)的不斷進步,本地部署的模型能力將持續逼近雲端 API。對於重視資料隱私、希望降低 API 成本的開發者來說,這無疑是一個好消息。
最後送給想嘗試 Q1 量化的朋友一句社群金句:「Q1 不是給你當即時 agentic backend 用的——找到對的場景,它就是寶藏。」