GGUF 量化實戰:在 Raspberry Pi 上跑 Qwen3 7B 的完整流程
前言:把 AI 塞進信用卡大小的電腦 你大概聽過「大語言模型要跑在顯卡上」,但你有沒有想過,一台只要 35 美元的 Raspberry Pi 也能跑 70 億參數的 Qwen3? 這聽起來像魔法,但背後的技術其實很樸實——GGUF 量化(GPT-Generated Unified Format)。它把原本需要 16 GB 記憶體的模型壓縮到 4 GB,還不需要任何獨顯,純粹用 CPU 就能跑。 這篇文章會帶你走完整流程:從模型下載、量化選擇、到在 Raspberry Pi 上實際跑起來。無論你是硬體玩家、邊緣運算愛好者,還是單純想省錢跑 AI 的窮人,這篇都適合你。 - 廣告 - 什麼是 GGUF?為什麼它能讓你省記憶體? GGUF 是 llama.cpp 專案開發的模型格式。它的核心思想很直接:把模型的權重用更少的 bit 來表示。 一般 PyTorch 模型用的是 FP16(16 位元浮點數),一個參數佔 2 bytes。但如果你把精度降到 4 bit(也就是 0.5 bytes),模型檔案就能縮小到原來的四分之一。 ...