前言
你以為跑大型語言模型(LLM)一定要有一張 expensive 的顯卡、一台配備頂級 CPU 的伺服器嗎?錯了。
阿里巴巴的 Qwen3 系列在 2025 年 4 月發表時,最引人注目的不是那個 235B 參數的 MoE 旗艦模型,而是那個只有 0.6B(6 億)參數 的迷你版本——Qwen3-0.6B。它體積小到什麼程度?量化後只有約 523 MB,連你的手機都能裝。
而這篇文章要帶你用一台樹莓派(Raspberry Pi),在本地跑起這個「麻雀雖小,五臟俱全」的語言模型。不需要雲端、不需要網路、隱私全在自己手上。
什麼是 Qwen3-0.6B?
Qwen3-0.6B 是 Qwen3 系列中最輕量的稠密(Dense)模型,於 2025 年 4 月 29 日由阿里巴巴 Qwen 團隊發布,採用 Apache 2.0 授權,可自由商用。
核心規格
| 項目 | 規格 |
|---|---|
| 參數數量 | 0.6B(0.44B 非嵌入層) |
| Transformer 層數 | 28 層 |
| 注意力機制 | GQA(16 個 Query heads / 8 個 KV heads) |
| 上下文長度 | 32,768 tokens |
| 詞彙表大小 | 151,669 tokens |
| 訓練語料 | 約 36 兆 tokens(119 種語言) |
| 授權 | Apache 2.0 |
為什麼 0.6B 值得關注?
別看它參數少,Qwen3-0.6B 經歷了從大模型(Qwen3-32B 和 Qwen3-235B-A22B)到小模型的知識蒸餾過程,继承了思考模式切換和推理能力。
它最特別的設計是混合思考模式(Hybrid Thinking Modes):
- 思考模式(Thinking Mode):適合複雜推理、數學、程式碼,輸出會包裹在
<think>標籤中 - 非思考模式(Non-Thinking Mode):適合一般對話,反應迅速
你可以透過 /think 和 /no_think 動態切換,也可以在程式中用 enable_thinking=True/False 控制。
benchmark 表現
雖然 0.6B 是入門級模型,但它的 benchmark 成績在同等級中相當亮眼:
| 測試項目 | 分數 |
|---|---|
| MMLU(通用知識) | 52.81 |
| GSM8K(數學推理) | 59.59 |
| EvalPlus(程式碼) | 36.23 |
| MMLU-Redux(思考模式) | 55.6 |
| MATH-500(思考模式) | 77.6 |
對比一下:在 MATH-500 上,思考模式能達到 77.6 分,這在 0.6B 級別中是非常出色的表現。
硬體需求:你需要什麼?
好消息是,Qwen3-0.6B 對硬體的要求非常低:
- 樹莓派 4(8GB RAM):可以流暢運行 Q4_K_M 量化版本
- 樹莓派 5(8GB RAM 推薦):效能更好,推薦使用主動散熱器
- 樹莓派 Zero 2W(512MB RAM):可以跑更小的模型(如 SmolLM2-135M),Qwen3-0.6B 需要量化到極限
建議配置:
- 樹莓派 4 或 5,8GB RAM 版本
- 45W USB-C 電源供應器
- NVMe SSD(透過 HAT 擴充),比 microSD 卡快很多
- Raspberry Pi OS 64-bit(必須是 64 位元)
哥的小建議: 如果還沒有樹莓派,Pi 5 的 ARM64 效能比 Pi 4 提升了約 2-3 倍,跑 LLM 的體驗會好很多。但 Pi 4 的 8GB 版本也完全够用。
方法一:用 Ollama 一鍵部署(最簡單)
Ollama 是目前最簡單的本地 LLM 運行工具,一條指令就能搞定。
安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh
安裝完成後,執行 ollama -h 確認安裝成功。
下載並運行 Qwen3-0.6B
ollama run qwen3:0.6b
Ollama 會自動從官方庫下載 Qwen3-0.6B 的 Q4_K_M 量化模型(約 523 MB),然後直接啟動。下載完後你就能看到互動式對話界面,直接輸入問題開始聊天。
用 API 呼叫
如果你想在自己的 Python 專案中使用:
pip install ollama
from ollama import chat
response = chat(
model='qwen3:0.6b',
messages=[
{'role': 'system', 'content': '你是一個精通繁體中文的助手。'},
{'role': 'user', 'content': '請用三個句子介紹什麼是量子計算。'}
]
)
print(response.message.content)
Ollama 同時提供 OpenAI 相容的 API 介面,預設運行在 http://localhost:11434,你可以用 curl 直接呼叫:
curl http://localhost:11434/api/chat \
-d '{
"model": "qwen3:0.6b",
"messages": [{"role": "user", "content": "你好!"}]
}'
方法二:用 llama.cpp 手動部署(最靈活)
llama.cpp 是本地 LLM 推理的黃金標準,支援從樹莓派到桌面到伺服器各種硬體,並且提供了最高的靈活性。
步驟 1:編譯 llama.cpp
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build
cmake --build build --config Release -j $(nproc)
在樹莓派上編譯大約需要 5-10 分鐘,請確保你有安裝 cmake 和 build-essential:
sudo apt install cmake build-essential git
注意: llama.cpp 從版本 b5092 開始正式支援 Qwen3 系列模型。
步驟 2:下載 GGUF 模型檔案
Qwen3-0.6B 在 Hugging Face 上有官方 GGUF 量化版本,提供從 Q4_K_M(4 位元量化,約 380 MB)到 Q8_0(8 位元量化,約 639 MB)的多種選擇。
推薦使用 huggingface-cli 下載:
pip install huggingface_hub
huggingface-cli download Qwen/Qwen3-0.6B-GGUF qwen3-0.6b-q4_k_m.gguf --local-dir .
量化版本選擇建議:
| 量化格式 | 檔案大小 | 品質損耗 | 推薦場景 |
|---|---|---|---|
| Q4_K_M | ~380 MB | 極小 | 樹莓派首選,效能與品質最佳平衡 |
| Q5_K_M | ~430 MB | 幾乎無感 | 追求稍高品質時 |
| Q6_K | ~500 MB | 幾乎無感 | 有足夠 RAM 時 |
| Q8_0 | ~639 MB | 可忽略 | 追求最高品質,不介意速度 |
對於樹莓派,Q4_K_M 是最推薦的選擇。实测在 0.6B 這種小模型上,Q4 和 Q8 的輸出品質差異非常小。
步驟 3:運行模型
./llama-cli -m qwen3-0.6b-q4_k_m.gguf \
--jinja --color \
--temp 0.7 --top-p 0.95 --top-k 20 \
-c 4096 -n 512
參數說明:
-m:指定模型檔案路徑--jinja:使用模型的原生聊天模板--temp 0.7:溫度設定(思考模式建議 0.6,對話模式 0.7)--top-p 0.95:核採樣參數--top-k 20:Top-K 採樣-c 4096:上下文窗口大小-n 512:最大生成 token 數
思考模式的進階設定
Qwen3 的 thinking mode 在 llama.cpp 中需要特別設定。推薦的參數組合:
# 思考模式(推理、數學、程式碼)
./llama-cli -m qwen3-0.6b-q4_k_m.gguf \
--jinja --color \
--temp 0.6 --top-p 0.95 --top-k 20 \
--presence-penalty 1.5 \
-c 4096 -n 2048
# 非思考模式(一般對話)
./llama-cli -m qwen3-0.6b-q4_k_m.gguf \
--jinja --color \
--temp 0.7 --top-p 0.8 --top-k 20 \
--presence-penalty 1.5 \
-c 4096 -n 512
重要提醒: 在思考模式中避免使用貪婪解碼(greedy decoding,即 temperature=0),否則可能會產生重複輸出。
用 llama-server 提供 API 服務
如果你想讓 Qwen3-0.6B 以 API 形式運行(類似 OpenAI 的介面):
./llama-server -m qwen3-0.6b-q4_k_m.gguf \
--jinja --port 8080
啟動後,API 服務會運行在 http://localhost:8080/v1/,Web UI 在 http://localhost:8080/。你的其他程式就可以用 OpenAI 相容的格式呼叫它了。
效能參考:在樹莓派上有多快?
根據實際測試數據:
- 樹莓派 4(8GB RAM):Qwen3-0.6B Q4_K_M 約可達到 8-15 tokens/秒
- 樹莓派 5(8GB RAM):同樣配置可達到 15-25 tokens/秒
這個速度對於日常對話來說完全够用——想想看,你打字的速度大概也就每秒幾個字。如果是複雜的推理任務,速度會稍慢一些,但 Qwen3-0.6B 的思考模式能給出有意義的推理過程。
影響速度的關鍵因素:
- RAM 容量:8GB 比 4GB 好很多,因為模型和上下文都需要載入記憶體
- 儲存介質:NVMe SSD 比 microSD 卡快很多,影響模型載入速度
- 量化等級:Q4 比 Q8 快約 20-30%,但品質差異在 0.6B 級別中幾乎看不出來
- 上下文長度:
-c設得越大,推理越慢
進階技巧與優化
1. 設定系統提示詞
在對話開始時設定系統提示詞,可以讓模型更好地配合你的需求:
from ollama import chat
response = chat(
model='qwen3:0.6b',
messages=[
{
'role': 'system',
'content': '你是一個專業的程式設計師助手,擅長 Python 和 JavaScript。請用繁體中文回答。'
},
{'role': 'user', 'content': '請幫我寫一個爬蟲程式'}
]
)
2. 重複抑制
對於量化模型,建議設定 presence_penalty 為 1.5 來減少重複輸出:
--presence-penalty 1.5
3. 數學題的輸出格式
如果你用 Qwen3-0.6B 來解數學題,加上這段提示可以得到更標準的輸出:
“Please reason step by step, and put your final answer within \boxed{}.”
4. 多輪對話的上下文管理
在多輪對話中,建議從歷史輸出中排除 <think> 標籤的內容,以保持上下文乾淨:
# 只保留非思考內容作為歷史
clean_history = []
for msg in history:
if msg['role'] == 'assistant':
content = msg['content'].replace('<think>...</think>', '').strip()
clean_history.append({'role': msg['role'], 'content': content})
else:
clean_history.append(msg)
實際應用場景
Qwen3-0.6B 雖然小,但在以下場景中非常實用:
1. 邊緣裝置智慧助手
在樹莓派上部署後,可以搭配語音辨識模組(如 USB 麥克風),打造離線語音助手。不需要網路連線,隱私有保障。
2. 教育工具
學生可以用樹莓派 + Qwen3-0.6B 做作業輔導、語言練習,甚至程式設計教學。成本不到一台平板。
3. IoT 資料分析
在工廠或農業環境中,樹莓派可以同時收集感測器資料並用 Qwen3-0.6B 做即時的自然語言摘要和異常檢測。
4. 個人知識庫
搭配向量資料庫(如 Chroma),在樹莓派上搭建一個本地的 RAG(檢索增強生成)系統,讓 Qwen3-0.6B 讀取你的文件並回答問題。
常見問題
Q:樹莓派 4 只有 4GB RAM 可以跑嗎?
A:可以,但建議使用 Q4_K_M 量化並限制上下文長度(-c 2048)。4GB 在系統占用後剩餘空間有限,但 0.6B 模型本身很小,應該可以勉強運行。
Q:可以加顯卡加速嗎? A:樹莓派沒有獨顯,但 Pi 5 的 V3D GPU 對 llama.cpp 的支援還在開發中。目前主要靠 CPU 運算。
Q:Qwen3-0.6B 支援中文嗎? A:完全支援。Qwen3 系列在 119 種語言上訓練,中文是其主要強項之一。
Q:思考模式的 <think> 標籤可以关掉嗎?
A:可以。在 llama.cpp 中可以使用 --chat-template-file 指定自訂模板,或在 Ollama 中設定 temperature 較低來減少思考標籤的出現。
Q:模型跑一段時間後變慢了怎麼辦?
A:檢查 RAM 使用量,考慮減少上下文長度(-c 參數)。如果用了 NVMe SSD,確保散熱良好,因為 Pi 5 在高負載下可能會降頻。
總結
Qwen3-0.6B 證明了「大模型不等於大參數」。這個只有 0.6B 參數的模型,憑藉著精心設計的架構和從大模型蒸餾過來的能力,在樹莓派上就能提供有意義的 AI 體驗。
無論你是想搭建離線智慧助手、教育工具,還是單純想在邊緣裝置上體驗 LLM 的魅力,Qwen3-0.6B 都是目前最佳的入門選擇之一。Apache 2.0 授權讓它可以自由商用,Q4 量化後不到 400 MB 的體積讓它幾乎可以在任何現代裝置上運行。
最棒的是,從安裝到跑起來,你只需要兩條指令(用 Ollama)或三個步驟(用 llama.cpp)。現在就打開你的樹莓派,開始你的本地 LLM 之旅吧!