前言:Q1 量化模型是「腦死」還是寶藏?

在 r/LocalLLaMA 社群裡,有一句流傳甚廣的成見:「低於 Q3 的量化模型就是腦死(braindead)。」

這句話聽起來很有道理——把一個 7440 億參數的 MoE 大模型壓縮到 1-bit,損失掉的可都是權重資訊,怎麼可能還保持智商?但最近一篇來自 Reddit 的實測貼文,卻給了這個成見一記響亮的耳光。

測試者用 GLM-5.2 的 Q1_S 極限量化版本(平均約 1.5 位元/權重)對決 Qwen 3.6 27B 的 Q8 量化版本(約 8 位元/權重),結果不僅 Q1_S 勝出,甚至在某些維度上超越了 GLM-5.2 的完整精度(Full Precision)版本。

這篇文章就來帶你深入剖析這場測試的背景、兩款模型的技術差異,以及量化模型到底該如何在本地環境中發揮最大價值。

- 廣告 -

測試背景:同一個問題,兩套完全不同的答案

測試任務

測試者給兩款模型同一個提示詞(prompt):用 Three.js 寫一個完整的 3D 競技場小遊戲,包含 WASD 控制、鏡頭跟隨、收集品、敵人 AI、血量系統、難度遞增,以及「高品質感」的視覺效果。

硬體環境

  • GPU:2× RTX 3090(每張 24GB VRAM,功耗限制 200W)
  • RAM:192GB DDR5
  • 推理引擎:llama.cpp + pi harness

測試結果速覽

項目Qwen 3.6 27B Q8GLM-5.2 Q1_S
生成速度~60 tps~3-6 tps
Token 消耗~20k(初始)+ ~42k(含修正)~75k(一次到位)
完成方式需 3 次 follow-up 修正一次成功(one-shot)
遊戲可玩性初始不可玩,修正後勉強可玩直接可玩,含音效
思考深度較淺極度深度思考

直觀來說,Qwen 快如閃電但產出不完整;GLM-5.2 Q1_S 慢如老牛卻一次到位。這背後的原因值得深究。

選手介紹:兩款型號的技術底蘊

GLM-5.2:744B 參數的 MoE 巨獸

GLM-5.2 是智譜 AI(Zhipu AI / Z.ai)於 2026 年 6 月 13 日推出的旗艦級開源模型,定位為「長程任務專用」的程式碼生成模型。

核心規格:

  • 架構: 稀疏 MoE(Mixture-of-Experts),總參數約 753B,每次 token 激活約 40B
  • 上下文視窗: 1,000,000 tokens
  • 輸出容量: 最高 131,072 tokens
  • 授權: MIT(開源)
  • 關鍵創新:
    • IndexShare: 每四個稀疏注意力層共用一個 attention indexer,在 1M 上下文長度下將每 token FLOPs 降低 2.9 倍
    • MTP(Multi-Token Prediction): 增強 speculative decoding,接受長度提升約 20%
  • 推理模式: 雙層思考強度——「High」用於一般編程,「Max」用於複雜多步驟任務

在開源長程編程基準上,GLM-5.2 表現亮眼:

  • FrontierSWE: 僅落後 Opus 4.8 約 1%,超越 GPT-5.5
  • PostTrainBench: 排名第二,僅次於 Opus 4.8
  • Terminal-Bench 2.1: 得分 81.0

Qwen 3.6 27B:27B 稠密模型的越級挑戰

Qwen 3.6 27B 是阿里通義千問團隊於 2026 年 4 月 22 日發布的稠密模型(Dense Model),以僅 27B 參數挑戰更大規模的 MoE 模型。

核心規格:

  • 架構: 混合 Gated DeltaNet + Gated Attention
    • 結構:16 × [ 3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN) ]
    • 用線性注意力(Gated DeltaNet)取代了 75% 的二次自注意力
  • 上下文視窗: 原生 262K,擴展至 1M
  • 授權: Apache 2.0(可商用、微調、再分發)
  • 關鍵特性:
    • 在 Terminal-Bench 2.0 上得分 59.3,與 Claude 4.5 Opus 並列
    • 超越同系列 397B 參數的 Qwen3.5-397B-A17B MoE 模型
    • 支援 FP8 量化變體,生產環境推薦使用

為什麼拿這兩款比?

測試者的核心問題是:「當我硬體資源有限時,該選『參數多但量化低』的模型,還是『參數少但量化高』的模型?」

GLM-5.2 Q1_S 約 200GB(含上下文),Qwen 3.6 27B Q8 約 30-40GB。兩者在 VRAM 需求上有顯著差異,但 Q1_S 的極限壓縮讓它能在 2×3090 + 192GB RAM 的設定下運行。

量化技術解密:Q1_S 為什麼沒「腦死」?

Unsloth UD-IQ1_S 的魔法

測試中使用的 Q1_S 量化來自 Unsloth 的 UD(Dynamic)系列,具體路徑是 unsloth/GLM-5.2-GGUF:UD-IQ1_S

關鍵在於,UD-IQ1_S 的平均位元/權重其實約 2.5 bit,而非字面上的 1 bit。這是因為 Unsloth 採用了動態量化策略:

  1. 智能層選擇: 為每一層動態調整量化類型,每個模型都有獨特的量化組合
  2. 權重保留: 對關鍵張量(如 attention 輸出層、FFN 門控層)保留較高精度
  3. 高品質校準數據: 使用超過 150 萬 token 的手動精選數據集,避免常見的維基百科校準過擬合問題

正如 Reddit 評論者 nasone32 所指出的:「UD IQ1_S 之所以不『笨』,是因為 Unsloth 非常精準地掌握了哪些張量可以壓縮、哪些不能。」

REAP 量化:為編程而生的特化

社群中還流傳著 GLM-5.2 的 REAP(Reconstruction-Aware Progressive)量化版本,這類量化在訓練階段就考慮了權重重建誤差,特別針對編碼任務優化了量化分配。

不過 REAP 版本也有缺點——ortegaalfredo 在評論中指出:「我試過的所有 GLM-5.2 REAP50 模型都會遺忘基礎知識(例如忘記 Ford 是汽車品牌),即使在 Q3 也一樣。但 Q2 非 REAP 量化則表現正常。」

換句話說,REAP 量化是「為編程而生,為編程而死」——在編碼任務上表現極佳,但在通用知識上會有所妥協。

量化型號的命名規則速查

命名含義典型位元/權重
Q1_S極限壓縮(Smart)~1.5-2.0
Q2_K_XL2-bit 大緩存~2.0-2.5
Q3_K_S3-bit 小緩存~3.0-3.5
Q4_K_S4-bit 小緩存~4.0-4.5
Q5_K_S5-bit 小緩存~5.0-5.5
Q6_K6-bit~6.0
Q8_08-bit~8.0
FP16半精度浮點16.0

深度分析:Q1_S 勝出的關鍵因素

1. 思考 token 預算的絕對優勢

這是本次測試最容易被忽略的變數。GLM-5.2 Q1_S 生成了約 75k tokens 的思考過程,而 Qwen 3.6 27B Q8 僅生成約 20k tokens

正如 Reddit 用戶 ai_without_borders 所指出的:「你拿 Q1_S GLM 的 75k 思考 token 去對比 Q8 Qwen 的 20k 思考 token——這根本不是相同的推理預算。」

GLM-5.2 的架構設計讓它在「思考」階段能夠反覆檢查、修正自己的假設和程式碼,這種深度思考能力在編程任務上產生了質的差異。

2. MoE 架構的「稀疏優勢」

GLM-5.2 的 MoE 架構意味著每次 token 生成只激活約 40B 參數。即使整體參數高達 753B,每次前向傳播的實際計算量與一個 40B 稠密模型相當。這帶來了兩個好處:

  • 參數密度高: 753B 的總參數意味著每個「專家」都經過大量數據訓練,即使只激活一部分,也能提供強大的能力
  • 量化容忍度高: MoE 模型的每個專家都是獨立訓練的,量化誤差在專家層面被「分散」,不像稠密模型那樣集中在同一組權重

3. 提示詞與 harness 的影響

測試使用了 pi harness(一個最小化系統提示的 prompt harness),這對於思考型模型尤為重要。pi harness 的系統提示極簡,讓模型有更多 token 空間用於深度思考。

值得注意的是,Reddit 用戶 source-drifter 用相同的 prompt 在 Qwen3.6-27B-UD-Q5_K_XL 上僅用 1 次初始生成 + 1 次 console error 修正 就完成了遊戲,且速度達 110+ tps。這說明:

  • 不同的 harness 和 prompt 策略會顯著影響結果
  • Qwen 3.6 27B 在合適的設定下也有極強的表現

成本效益分析:本地 vs API

測試者還將 GLM-5.2 Q1_S 的本地表現與 OpenRouter 上的 API 版本進行了對比:

模型平台成本表現
GLM-5.2 Q1_S(本地)2×3090電費 ~$0.12一次成功,含音效
GLM-5.2 FP(API)OpenRouter$0.12方向反轉,11k tokens
Opus 4.8(API)OpenRouter$0.42視覺上略勝一籌

有趣的是,GLM-5.2 的完整精度 API 版本($0.12)表現反而不如 Q1_S 本地版本——控制鍵方向反轉。測試者推測這可能是 API 提供商對思考 token 的預設限制,也可能是高量化版本反而讓模型「過度思考」了。

實戰建議:你的硬體該選什麼?

入門級(單張 12-16GB GPU)

  • 推薦:Qwen 3.6 27B Q4_K_S 或 Q8_0
  • 預期:快速、可靠,適合日常輔助編程
  • 備選:Qwen 3.6 9B(極速,適合快速原型)

進階級(雙卡 24GB × 2 或 256GB RAM)

  • 推薦:GLM-5.2 Q2_K_XL 或 Q1_S
  • 預期:深度思考能力強,適合複雜編程任務
  • 注意:Q1_S 速度慢但品質高,適合非即時 agentic 流程

旗艦級(4×GPU 或 512GB+ RAM)

  • 推薦:GLM-5.2 Q4_K_M 或 Q2_K_XL(REAP)
  • 預期:接近 API 級別表現,本地部署
  • 備選:Qwen 3.6 35B-A3B(稀疏 MoE,效率極高)

雲端/混合方案

  • 日常快速任務:用 Qwen 3.6 27B 本地跑
  • 複雜多步驟任務:用 GLM-5.2 API(OpenRouter $1.4/M input tokens)
  • 批量非即時任務:用 GLM-5.2 Q1_S 本地跑,品質天花板高

結語:量化不是劣化,而是權衡

這篇測試最核心的啟示是:「大模型 + 低量化」不等於「腦死模型」,關鍵在於找到合適的應用場景。

GLM-5.2 Q1_S 在編程任務上的表現證明,當模型足夠大、量化足夠聰明時,即使是 1-bit 也能產出高品質結果。但它不適合即時互動——3-6 tps 的速度意味著它更像是一個「深度思考的批處理引擎」,而非「對話式助手」。

而 Qwen 3.6 27B Q8 則證明了「小而美」的價值——在合理的硬體限制下,提供快速、可靠的日常編程輔助。

未來的趨勢很清晰:隨著量化技術(特別是 REAP 和 UD 系列)的不斷進步,本地部署的模型能力將持續逼近雲端 API。對於重視資料隱私、希望降低 API 成本的開發者來說,這無疑是一個好消息。

最後送給想嘗試 Q1 量化的朋友一句社群金句:「Q1 不是給你當即時 agentic backend 用的——找到對的場景,它就是寶藏。」

- 廣告 -

參考資料