GGUF 量化實戰：在 Raspberry Pi 上跑 Qwen3 7B 的完整流程

Mon, 08 Jun 2026 14:30:00 +0800

前言：把 AI 塞進信用卡大小的電腦

你大概聽過「大語言模型要跑在顯卡上」，但你有沒有想過，一台只要 35 美元的 Raspberry Pi 也能跑 70 億參數的 Qwen3？

這聽起來像魔法，但背後的技術其實很樸實——GGUF 量化（GPT-Generated Unified Format）。它把原本需要 16 GB 記憶體的模型壓縮到 4 GB，還不需要任何獨顯，純粹用 CPU 就能跑。

這篇文章會帶你走完整流程：從模型下載、量化選擇、到在 Raspberry Pi 上實際跑起來。無論你是硬體玩家、邊緣運算愛好者，還是單純想省錢跑 AI 的窮人，這篇都適合你。

GGUF 是 llama.cpp 專案開發的模型格式。它的核心思想很直接：把模型的權重用更少的 bit 來表示。

一般 PyTorch 模型用的是 FP16（16 位元浮點數），一個參數佔 2 bytes。但如果你把精度降到 4 bit（也就是 0.5 bytes），模型檔案就能縮小到原來的四分之一。