量化模型 | 凱凱的技術筆記

前言：Q1 量化模型是「腦死」還是寶藏？在 r/LocalLLaMA 社群裡，有一句流傳甚廣的成見：「低於 Q3 的量化模型就是腦死（braindead）。」這句話聽起來很有道理——把一個 7440 億參數的 MoE 大模型壓縮到 1-bit，損失掉的可都是權重資訊，怎麼可能還保持智商？但最近一篇來自 Reddit 的實測貼文，卻給了這個成見一記響亮的耳光。測試者用 GLM-5.2 的 Q1_S 極限量化版本（平均約 1.5 位元/權重）對決 Qwen 3.6 27B 的 Q8 量化版本（約 8 位元/權重），結果不僅 Q1_S 勝出，甚至在某些維度上超越了 GLM-5.2 的完整精度（Full Precision）版本。這篇文章就來帶你深入剖析這場測試的背景、兩款模型的技術差異，以及量化模型到底該如何在本地環境中發揮最大價值。 - 廣告 - 測試背景：同一個問題，兩套完全不同的答案測試任務測試者給兩款模型同一個提示詞（prompt）：用 Three.js 寫一個完整的 3D 競技場小遊戲，包含 WASD 控制、鏡頭跟隨、收集品、敵人 AI、血量系統、難度遞增，以及「高品質感」的視覺效果。硬體環境 GPU：2× RTX 3090（每張 24GB VRAM，功耗限制 200W） RAM：192GB DDR5 推理引擎：llama.cpp + pi harness 測試結果速覽項目 Qwen 3.6 27B Q8 GLM-5.2 Q1_S 生成速度 ~60 tps ~3-6 tps Token 消耗 ~20k（初始）+ ~42k（含修正） ~75k（一次到位）完成方式需 3 次 follow-up 修正一次成功（one-shot）遊戲可玩性初始不可玩，修正後勉強可玩直接可玩，含音效思考深度較淺極度深度思考直觀來說，Qwen 快如閃電但產出不完整；GLM-5.2 Q1_S 慢如老牛卻一次到位。這背後的原因值得深究。 ...