GLM-5.2 Q1_S 對決 Qwen 3.6 27B Q8：極限量化模型還有多能打？

Tue, 30 Jun 2026 18:30:00 +0800

前言：Q1 量化模型是「腦死」還是寶藏？

在 r/LocalLLaMA 社群裡，有一句流傳甚廣的成見：「低於 Q3 的量化模型就是腦死（braindead）。」

這句話聽起來很有道理——把一個 7440 億參數的 MoE 大模型壓縮到 1-bit，損失掉的可都是權重資訊，怎麼可能還保持智商？但最近一篇來自 Reddit 的實測貼文，卻給了這個成見一記響亮的耳光。

測試者用 GLM-5.2 的 Q1_S 極限量化版本（平均約 1.5 位元/權重）對決 Qwen 3.6 27B 的 Q8 量化版本（約 8 位元/權重），結果不僅 Q1_S 勝出，甚至在某些維度上超越了 GLM-5.2 的完整精度（Full Precision）版本。

這篇文章就來帶你深入剖析這場測試的背景、兩款模型的技術差異，以及量化模型到底該如何在本地環境中發揮最大價值。

測試者給兩款模型同一個提示詞（prompt）：用 Three.js 寫一個完整的 3D 競技場小遊戲，包含 WASD 控制、鏡頭跟隨、收集品、敵人 AI、血量系統、難度遞增，以及「高品質感」的視覺效果。

直觀來說，Qwen 快如閃電但產出不完整；GLM-5.2 Q1_S 慢如老牛卻一次到位。這背後的原因值得深究。