Ollama

前言你以為跑大型語言模型（LLM）一定要有一張 expensive 的顯卡、一台配備頂級 CPU 的伺服器嗎？錯了。阿里巴巴的 Qwen3 系列在 2025 年 4 月發表時，最引人注目的不是那個 235B 參數的 MoE 旗艦模型，而是那個只有 0.6B（6 億）參數的迷你版本——Qwen3-0.6B。它體積小到什麼程度？量化後只有約 523 MB，連你的手機都能裝。而這篇文章要帶你用一台樹莓派（Raspberry Pi），在本地跑起這個「麻雀雖小，五臟俱全」的語言模型。不需要雲端、不需要網路、隱私全在自己手上。 - 廣告 - 什麼是 Qwen3-0.6B？ Qwen3-0.6B 是 Qwen3 系列中最輕量的稠密（Dense）模型，於 2025 年 4 月 29 日由阿里巴巴 Qwen 團隊發布，採用 Apache 2.0 授權，可自由商用。核心規格項目規格參數數量 0.6B（0.44B 非嵌入層） Transformer 層數 28 層注意力機制 GQA（16 個 Query heads / 8 個 KV heads）上下文長度 32,768 tokens 詞彙表大小 151,669 tokens 訓練語料約 36 兆 tokens（119 種語言）授權 Apache 2.0 為什麼 0.6B 值得關注？別看它參數少，Qwen3-0.6B 經歷了從大模型（Qwen3-32B 和 Qwen3-235B-A22B）到小模型的知識蒸餾過程，继承了思考模式切換和推理能力。 ...