<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Qwen 3.6 on 凱凱的技術筆記</title><link>https://kaikai365.com/tags/qwen-3.6/</link><description>Recent content in Qwen 3.6 on 凱凱的技術筆記</description><generator>Hugo</generator><language>zh-TW</language><lastBuildDate>Tue, 30 Jun 2026 18:30:00 +0800</lastBuildDate><atom:link href="https://kaikai365.com/tags/qwen-3.6/index.xml" rel="self" type="application/rss+xml"/><item><title>GLM-5.2 Q1_S 對決 Qwen 3.6 27B Q8：極限量化模型還有多能打？</title><link>https://kaikai365.com/posts/2026-06-30-glm-5-2-q1s-vs-qwen-27b-q8-local-llm-quantization/</link><pubDate>Tue, 30 Jun 2026 18:30:00 +0800</pubDate><guid>https://kaikai365.com/posts/2026-06-30-glm-5-2-q1s-vs-qwen-27b-q8-local-llm-quantization/</guid><description>&lt;h2 id="前言q1-量化模型是腦死還是寶藏">前言：Q1 量化模型是「腦死」還是寶藏？&lt;/h2>
&lt;p>在 r/LocalLLaMA 社群裡，有一句流傳甚廣的成見：「低於 Q3 的量化模型就是腦死（braindead）。」&lt;/p>
&lt;p>這句話聽起來很有道理——把一個 7440 億參數的 MoE 大模型壓縮到 1-bit，損失掉的可都是權重資訊，怎麼可能還保持智商？但最近一篇來自 Reddit 的實測貼文，卻給了這個成見一記響亮的耳光。&lt;/p>
&lt;p>測試者用 &lt;strong>GLM-5.2 的 Q1_S 極限量化版本&lt;/strong>（平均約 1.5 位元/權重）對決 &lt;strong>Qwen 3.6 27B 的 Q8 量化版本&lt;/strong>（約 8 位元/權重），結果不僅 Q1_S 勝出，甚至在某些維度上超越了 GLM-5.2 的完整精度（Full Precision）版本。&lt;/p>
&lt;p>這篇文章就來帶你深入剖析這場測試的背景、兩款模型的技術差異，以及量化模型到底該如何在本地環境中發揮最大價值。&lt;/p>
&lt;div class="adsense-container" style="margin: 20px 0; text-align: center;">
&lt;span style="font-size: 12px; color: #888; display: block; margin-bottom: 5px;">- 廣告 -&lt;/span>
&lt;ins class="adsbygoogle"
style="display:block; text-align:center;"
data-ad-layout="in-article"
data-ad-format="fluid"
data-ad-client="ca-pub-7490556205068980"
data-ad-slot="YYYYYYYYYY">&lt;/ins>
&lt;script>
(adsbygoogle = window.adsbygoogle || []).push({});
&lt;/script>
&lt;/div>
&lt;h2 id="測試背景同一個問題兩套完全不同的答案">測試背景：同一個問題，兩套完全不同的答案&lt;/h2>
&lt;h3 id="測試任務">測試任務&lt;/h3>
&lt;p>測試者給兩款模型同一個提示詞（prompt）：用 Three.js 寫一個完整的 3D 競技場小遊戲，包含 WASD 控制、鏡頭跟隨、收集品、敵人 AI、血量系統、難度遞增，以及「高品質感」的視覺效果。&lt;/p>
&lt;h3 id="硬體環境">硬體環境&lt;/h3>
&lt;ul>
&lt;li>GPU：2× RTX 3090（每張 24GB VRAM，功耗限制 200W）&lt;/li>
&lt;li>RAM：192GB DDR5&lt;/li>
&lt;li>推理引擎：llama.cpp + pi harness&lt;/li>
&lt;/ul>
&lt;h3 id="測試結果速覽">測試結果速覽&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>項目&lt;/th>
&lt;th>Qwen 3.6 27B Q8&lt;/th>
&lt;th>GLM-5.2 Q1_S&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>生成速度&lt;/td>
&lt;td>~60 tps&lt;/td>
&lt;td>~3-6 tps&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Token 消耗&lt;/td>
&lt;td>~20k（初始）+ ~42k（含修正）&lt;/td>
&lt;td>~75k（一次到位）&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>完成方式&lt;/td>
&lt;td>需 3 次 follow-up 修正&lt;/td>
&lt;td>一次成功（one-shot）&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>遊戲可玩性&lt;/td>
&lt;td>初始不可玩，修正後勉強可玩&lt;/td>
&lt;td>直接可玩，含音效&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>思考深度&lt;/td>
&lt;td>較淺&lt;/td>
&lt;td>極度深度思考&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>直觀來說，Qwen 快如閃電但產出不完整；GLM-5.2 Q1_S 慢如老牛卻一次到位。這背後的原因值得深究。&lt;/p></description></item></channel></rss>