量化 | 凱凱的技術筆記

前言：把 AI 塞進信用卡大小的電腦你大概聽過「大語言模型要跑在顯卡上」，但你有沒有想過，一台只要 35 美元的 Raspberry Pi 也能跑 70 億參數的 Qwen3？這聽起來像魔法，但背後的技術其實很樸實——GGUF 量化（GPT-Generated Unified Format）。它把原本需要 16 GB 記憶體的模型壓縮到 4 GB，還不需要任何獨顯，純粹用 CPU 就能跑。這篇文章會帶你走完整流程：從模型下載、量化選擇、到在 Raspberry Pi 上實際跑起來。無論你是硬體玩家、邊緣運算愛好者，還是單純想省錢跑 AI 的窮人，這篇都適合你。 - 廣告 - 什麼是 GGUF？為什麼它能讓你省記憶體？ GGUF 是 llama.cpp 專案開發的模型格式。它的核心思想很直接：把模型的權重用更少的 bit 來表示。一般 PyTorch 模型用的是 FP16（16 位元浮點數），一個參數佔 2 bytes。但如果你把精度降到 4 bit（也就是 0.5 bytes），模型檔案就能縮小到原來的四分之一。 ...