GLM-5.2 Q1_S 對決 Qwen 3.6 27B Q8:極限量化模型還有多能打?

前言:Q1 量化模型是「腦死」還是寶藏? 在 r/LocalLLaMA 社群裡,有一句流傳甚廣的成見:「低於 Q3 的量化模型就是腦死(braindead)。」 這句話聽起來很有道理——把一個 7440 億參數的 MoE 大模型壓縮到 1-bit,損失掉的可都是權重資訊,怎麼可能還保持智商?但最近一篇來自 Reddit 的實測貼文,卻給了這個成見一記響亮的耳光。 測試者用 GLM-5.2 的 Q1_S 極限量化版本(平均約 1.5 位元/權重)對決 Qwen 3.6 27B 的 Q8 量化版本(約 8 位元/權重),結果不僅 Q1_S 勝出,甚至在某些維度上超越了 GLM-5.2 的完整精度(Full Precision)版本。 這篇文章就來帶你深入剖析這場測試的背景、兩款模型的技術差異,以及量化模型到底該如何在本地環境中發揮最大價值。 - 廣告 - 測試背景:同一個問題,兩套完全不同的答案 測試任務 測試者給兩款模型同一個提示詞(prompt):用 Three.js 寫一個完整的 3D 競技場小遊戲,包含 WASD 控制、鏡頭跟隨、收集品、敵人 AI、血量系統、難度遞增,以及「高品質感」的視覺效果。 硬體環境 GPU:2× RTX 3090(每張 24GB VRAM,功耗限制 200W) RAM:192GB DDR5 推理引擎:llama.cpp + pi harness 測試結果速覽 項目 Qwen 3.6 27B Q8 GLM-5.2 Q1_S 生成速度 ~60 tps ~3-6 tps Token 消耗 ~20k(初始)+ ~42k(含修正) ~75k(一次到位) 完成方式 需 3 次 follow-up 修正 一次成功(one-shot) 遊戲可玩性 初始不可玩,修正後勉強可玩 直接可玩,含音效 思考深度 較淺 極度深度思考 直觀來說,Qwen 快如閃電但產出不完整;GLM-5.2 Q1_S 慢如老牛卻一次到位。這背後的原因值得深究。 ...