Qwen3-0.6B 本地部署教學：在樹莓派上跑大型語言模型

前言

你以為跑大型語言模型（LLM）一定要有一張 expensive 的顯卡、一台配備頂級 CPU 的伺服器嗎？錯了。

阿里巴巴的 Qwen3 系列在 2025 年 4 月發表時，最引人注目的不是那個 235B 參數的 MoE 旗艦模型，而是那個只有 0.6B（6 億）參數 的迷你版本——Qwen3-0.6B。它體積小到什麼程度？量化後只有約 523 MB，連你的手機都能裝。

而這篇文章要帶你用一台樹莓派（Raspberry Pi），在本地跑起這個「麻雀雖小，五臟俱全」的語言模型。不需要雲端、不需要網路、隱私全在自己手上。

什麼是 Qwen3-0.6B？

Qwen3-0.6B 是 Qwen3 系列中最輕量的稠密（Dense）模型，於 2025 年 4 月 29 日由阿里巴巴 Qwen 團隊發布，採用 Apache 2.0 授權，可自由商用。

核心規格

項目	規格
參數數量	0.6B（0.44B 非嵌入層）
Transformer 層數	28 層
注意力機制	GQA（16 個 Query heads / 8 個 KV heads）
上下文長度	32,768 tokens
詞彙表大小	151,669 tokens
訓練語料	約 36 兆 tokens（119 種語言）
授權	Apache 2.0

為什麼 0.6B 值得關注？

別看它參數少，Qwen3-0.6B 經歷了從大模型（Qwen3-32B 和 Qwen3-235B-A22B）到小模型的知識蒸餾過程，继承了思考模式切換和推理能力。

它最特別的設計是混合思考模式（Hybrid Thinking Modes）：

思考模式（Thinking Mode）：適合複雜推理、數學、程式碼，輸出會包裹在 <think> 標籤中
非思考模式（Non-Thinking Mode）：適合一般對話，反應迅速

你可以透過 /think 和 /no_think 動態切換，也可以在程式中用 enable_thinking=True/False 控制。

benchmark 表現

雖然 0.6B 是入門級模型，但它的 benchmark 成績在同等級中相當亮眼：

測試項目	分數
MMLU（通用知識）	52.81
GSM8K（數學推理）	59.59
EvalPlus（程式碼）	36.23
MMLU-Redux（思考模式）	55.6
MATH-500（思考模式）	77.6

對比一下：在 MATH-500 上，思考模式能達到 77.6 分，這在 0.6B 級別中是非常出色的表現。

硬體需求：你需要什麼？

好消息是，Qwen3-0.6B 對硬體的要求非常低：

樹莓派 4（8GB RAM）：可以流暢運行 Q4_K_M 量化版本
樹莓派 5（8GB RAM 推薦）：效能更好，推薦使用主動散熱器
樹莓派 Zero 2W（512MB RAM）：可以跑更小的模型（如 SmolLM2-135M），Qwen3-0.6B 需要量化到極限

建議配置：

樹莓派 4 或 5，8GB RAM 版本
45W USB-C 電源供應器
NVMe SSD（透過 HAT 擴充），比 microSD 卡快很多
Raspberry Pi OS 64-bit（必須是 64 位元）

哥的小建議： 如果還沒有樹莓派，Pi 5 的 ARM64 效能比 Pi 4 提升了約 2-3 倍，跑 LLM 的體驗會好很多。但 Pi 4 的 8GB 版本也完全够用。

方法一：用 Ollama 一鍵部署（最簡單）

Ollama 是目前最簡單的本地 LLM 運行工具，一條指令就能搞定。

安裝 Ollama

curl -fsSL https://ollama.com/install.sh | sh

安裝完成後，執行 ollama -h 確認安裝成功。

下載並運行 Qwen3-0.6B

ollama run qwen3:0.6b

Ollama 會自動從官方庫下載 Qwen3-0.6B 的 Q4_K_M 量化模型（約 523 MB），然後直接啟動。下載完後你就能看到互動式對話界面，直接輸入問題開始聊天。

用 API 呼叫

如果你想在自己的 Python 專案中使用：

pip install ollama

from ollama import chat

response = chat(
    model='qwen3:0.6b',
    messages=[
        {'role': 'system', 'content': '你是一個精通繁體中文的助手。'},
        {'role': 'user', 'content': '請用三個句子介紹什麼是量子計算。'}
    ]
)
print(response.message.content)

Ollama 同時提供 OpenAI 相容的 API 介面，預設運行在 http://localhost:11434，你可以用 curl 直接呼叫：

curl http://localhost:11434/api/chat \
  -d '{
    "model": "qwen3:0.6b",
    "messages": [{"role": "user", "content": "你好！"}]
  }'

方法二：用 llama.cpp 手動部署（最靈活）

llama.cpp 是本地 LLM 推理的黃金標準，支援從樹莓派到桌面到伺服器各種硬體，並且提供了最高的靈活性。

步驟 1：編譯 llama.cpp

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build
cmake --build build --config Release -j $(nproc)

在樹莓派上編譯大約需要 5-10 分鐘，請確保你有安裝 cmake 和 build-essential：

sudo apt install cmake build-essential git

注意： llama.cpp 從版本 b5092 開始正式支援 Qwen3 系列模型。

步驟 2：下載 GGUF 模型檔案

Qwen3-0.6B 在 Hugging Face 上有官方 GGUF 量化版本，提供從 Q4_K_M（4 位元量化，約 380 MB）到 Q8_0（8 位元量化，約 639 MB）的多種選擇。

推薦使用 huggingface-cli 下載：

pip install huggingface_hub
huggingface-cli download Qwen/Qwen3-0.6B-GGUF qwen3-0.6b-q4_k_m.gguf --local-dir .

量化版本選擇建議：

量化格式	檔案大小	品質損耗	推薦場景
Q4_K_M	~380 MB	極小	樹莓派首選，效能與品質最佳平衡
Q5_K_M	~430 MB	幾乎無感	追求稍高品質時
Q6_K	~500 MB	幾乎無感	有足夠 RAM 時
Q8_0	~639 MB	可忽略	追求最高品質，不介意速度

對於樹莓派，Q4_K_M 是最推薦的選擇。实测在 0.6B 這種小模型上，Q4 和 Q8 的輸出品質差異非常小。

步驟 3：運行模型

./llama-cli -m qwen3-0.6b-q4_k_m.gguf \
  --jinja --color \
  --temp 0.7 --top-p 0.95 --top-k 20 \
  -c 4096 -n 512

參數說明：

-m：指定模型檔案路徑
--jinja：使用模型的原生聊天模板
--temp 0.7：溫度設定（思考模式建議 0.6，對話模式 0.7）
--top-p 0.95：核採樣參數
--top-k 20：Top-K 採樣
-c 4096：上下文窗口大小
-n 512：最大生成 token 數

思考模式的進階設定

Qwen3 的 thinking mode 在 llama.cpp 中需要特別設定。推薦的參數組合：

# 思考模式（推理、數學、程式碼）
./llama-cli -m qwen3-0.6b-q4_k_m.gguf \
  --jinja --color \
  --temp 0.6 --top-p 0.95 --top-k 20 \
  --presence-penalty 1.5 \
  -c 4096 -n 2048

# 非思考模式（一般對話）
./llama-cli -m qwen3-0.6b-q4_k_m.gguf \
  --jinja --color \
  --temp 0.7 --top-p 0.8 --top-k 20 \
  --presence-penalty 1.5 \
  -c 4096 -n 512

重要提醒： 在思考模式中避免使用貪婪解碼（greedy decoding，即 temperature=0），否則可能會產生重複輸出。

用 llama-server 提供 API 服務

如果你想讓 Qwen3-0.6B 以 API 形式運行（類似 OpenAI 的介面）：

./llama-server -m qwen3-0.6b-q4_k_m.gguf \
  --jinja --port 8080

啟動後，API 服務會運行在 http://localhost:8080/v1/，Web UI 在 http://localhost:8080/。你的其他程式就可以用 OpenAI 相容的格式呼叫它了。

效能參考：在樹莓派上有多快？

根據實際測試數據：

樹莓派 4（8GB RAM）：Qwen3-0.6B Q4_K_M 約可達到 8-15 tokens/秒
樹莓派 5（8GB RAM）：同樣配置可達到 15-25 tokens/秒

這個速度對於日常對話來說完全够用——想想看，你打字的速度大概也就每秒幾個字。如果是複雜的推理任務，速度會稍慢一些，但 Qwen3-0.6B 的思考模式能給出有意義的推理過程。

影響速度的關鍵因素：

RAM 容量：8GB 比 4GB 好很多，因為模型和上下文都需要載入記憶體
儲存介質：NVMe SSD 比 microSD 卡快很多，影響模型載入速度
量化等級：Q4 比 Q8 快約 20-30%，但品質差異在 0.6B 級別中幾乎看不出來
上下文長度：-c 設得越大，推理越慢

進階技巧與優化

1. 設定系統提示詞

在對話開始時設定系統提示詞，可以讓模型更好地配合你的需求：

from ollama import chat

response = chat(
    model='qwen3:0.6b',
    messages=[
        {
            'role': 'system',
            'content': '你是一個專業的程式設計師助手，擅長 Python 和 JavaScript。請用繁體中文回答。'
        },
        {'role': 'user', 'content': '請幫我寫一個爬蟲程式'}
    ]
)

2. 重複抑制

對於量化模型，建議設定 presence_penalty 為 1.5 來減少重複輸出：

--presence-penalty 1.5

3. 數學題的輸出格式

如果你用 Qwen3-0.6B 來解數學題，加上這段提示可以得到更標準的輸出：

“Please reason step by step, and put your final answer within \boxed{}.”

4. 多輪對話的上下文管理

在多輪對話中，建議從歷史輸出中排除 <think> 標籤的內容，以保持上下文乾淨：

# 只保留非思考內容作為歷史
clean_history = []
for msg in history:
    if msg['role'] == 'assistant':
        content = msg['content'].replace('<think>...</think>', '').strip()
        clean_history.append({'role': msg['role'], 'content': content})
    else:
        clean_history.append(msg)

實際應用場景

Qwen3-0.6B 雖然小，但在以下場景中非常實用：

1. 邊緣裝置智慧助手

在樹莓派上部署後，可以搭配語音辨識模組（如 USB 麥克風），打造離線語音助手。不需要網路連線，隱私有保障。

2. 教育工具

學生可以用樹莓派 + Qwen3-0.6B 做作業輔導、語言練習，甚至程式設計教學。成本不到一台平板。

3. IoT 資料分析

在工廠或農業環境中，樹莓派可以同時收集感測器資料並用 Qwen3-0.6B 做即時的自然語言摘要和異常檢測。

4. 個人知識庫

搭配向量資料庫（如 Chroma），在樹莓派上搭建一個本地的 RAG（檢索增強生成）系統，讓 Qwen3-0.6B 讀取你的文件並回答問題。

常見問題

Q：樹莓派 4 只有 4GB RAM 可以跑嗎？ A：可以，但建議使用 Q4_K_M 量化並限制上下文長度（-c 2048）。4GB 在系統占用後剩餘空間有限，但 0.6B 模型本身很小，應該可以勉強運行。

Q：可以加顯卡加速嗎？ A：樹莓派沒有獨顯，但 Pi 5 的 V3D GPU 對 llama.cpp 的支援還在開發中。目前主要靠 CPU 運算。

Q：Qwen3-0.6B 支援中文嗎？ A：完全支援。Qwen3 系列在 119 種語言上訓練，中文是其主要強項之一。

Q：思考模式的 <think> 標籤可以关掉嗎？ A：可以。在 llama.cpp 中可以使用 --chat-template-file 指定自訂模板，或在 Ollama 中設定 temperature 較低來減少思考標籤的出現。

Q：模型跑一段時間後變慢了怎麼辦？ A：檢查 RAM 使用量，考慮減少上下文長度（-c 參數）。如果用了 NVMe SSD，確保散熱良好，因為 Pi 5 在高負載下可能會降頻。

總結

Qwen3-0.6B 證明了「大模型不等於大參數」。這個只有 0.6B 參數的模型，憑藉著精心設計的架構和從大模型蒸餾過來的能力，在樹莓派上就能提供有意義的 AI 體驗。

無論你是想搭建離線智慧助手、教育工具，還是單純想在邊緣裝置上體驗 LLM 的魅力，Qwen3-0.6B 都是目前最佳的入門選擇之一。Apache 2.0 授權讓它可以自由商用，Q4 量化後不到 400 MB 的體積讓它幾乎可以在任何現代裝置上運行。

最棒的是，從安裝到跑起來，你只需要兩條指令（用 Ollama）或三個步驟（用 llama.cpp）。現在就打開你的樹莓派，開始你的本地 LLM 之旅吧！

前言#

什麼是 Qwen3-0.6B？#

核心規格#

為什麼 0.6B 值得關注？#

benchmark 表現#

硬體需求：你需要什麼？#

方法一：用 Ollama 一鍵部署（最簡單）#

安裝 Ollama#

下載並運行 Qwen3-0.6B#

用 API 呼叫#

方法二：用 llama.cpp 手動部署（最靈活）#

步驟 1：編譯 llama.cpp#

步驟 2：下載 GGUF 模型檔案#

步驟 3：運行模型#

思考模式的進階設定#

用 llama-server 提供 API 服務#

效能參考：在樹莓派上有多快？#

進階技巧與優化#

1. 設定系統提示詞#

2. 重複抑制#

3. 數學題的輸出格式#

4. 多輪對話的上下文管理#

實際應用場景#

1. 邊緣裝置智慧助手#

2. 教育工具#

3. IoT 資料分析#

4. 個人知識庫#

常見問題#

總結#

參考資源#

前言