引言:12B 的參數,26B 的野心
2026 年 6 月 3 日,Google DeepMind 在官方部落格發表了一篇看似平淡卻暗藏殺機的聲明——Gemma 4 12B 正式開源。
這聽起來只是一個數字遊戲:12B 參數、Apache 2.0 授權、16GB VRAM 就能跑。但如果你仔細看它的架構設計和基準測試數據,會發現 Google 在這款「中型」模型上塞進了不少過去只有大模型才有的黑科技。
這篇文章結合 Google 官方技術部落格與社群實測影片,來一次完整拆解:Gemma 4 12B 到底強在哪裡?值得你從 Qwen 2.5 7B 跳槽嗎?
一、架構革命:去編碼器(Encoder-free)的多模態設計
傳統多模態模型的痛點
大多數多模態大模型(比如早期的 GPT-4V、Claude Vision)都採用「編碼器 + LLM」的雙段式架構:
- 視覺編碼器(Vision Encoder)先把圖片轉成向量表示
- 音訊編碼器(Audio Encoder)再把聲音轉成特徵
- 最後把這些向量餵給語言模型做理解
這個流程的問題很明顯:編碼器佔記憶體、增加延遲、而且每個模態都要單獨訓練一套編碼器。
Gemma 4 的解法:直接丟進 LLM
Gemma 4 12B 做了兩件大事:
視覺處理: 用一個極輕量的嵌入模組取代了傳統視覺編碼器——只有一個矩陣乘法、位置嵌入(positional embedding)和正規化。換句話說,圖片被直接投影到跟文字相同的向量空間,然後由 LLM 主幹直接處理視覺資訊。
音訊處理: 更徹底。直接把原始音訊訊號投影到文字 token 的維度空間,完全省掉了音訊編碼器。這也是 Gemma 4 系列第一個內建原生音訊輸入的中型模型。
這種 encoder-free 架構的好處是:
- 更低的延遲:少了一次編碼器的轉換
- 更小的記憶體佔用:不用額外儲存編碼器權重
- 更統一的訓練:所有模態在同一個 LLM 上 jointly train
用 Google 的原話說:「我們讓 LLM backbone 自己接管視覺處理。」
二、性能表現:12B 的身軀,26B 的靈魂?
基準測試對比
根據 Google 官方數據,Gemma 4 12B 在標準基準測試上的表現接近 Gemma 4 26B MoE 模型,但記憶體佔用不到一半。
具體來說:
| 模型 | 基準表現 | 記憶體需求 |
|---|---|---|
| Gemma 4 12B | 接近 26B MoE | ~16 GB VRAM |
| Gemma 4 26B MoE | 基準參考線 | ~32 GB VRAM |
| Gemma 2 7B | 顯著落後 | ~8 GB VRAM |
| Gemma 2 26B | 略勝 12B | ~24 GB VRAM |
這個「接近 26B」的說法其實需要解讀——不是所有基準都接近,而是推理和 agentic 工作負載接近。在純數學或長上下文理解上,26B MoE 還是有明顯優勢。
跟 Qwen 2.5 的對決
從社群實測(參考之前影片中的 benchmark 對比):
- 對決 Qwen 2.5 7B:整體能力相當,Qwen 2.5 7B 在數學和長上下文略強
- 對決 Qwen 2.5 14B:Gemma 4 12B 略遜一籌
- 部署成本:Gemma 4 12B 的 Q4 量化只需約 7GB 顯存,Qwen 2.5 7B 也差不多
作者的結論很中肯:「Gemma 4 12B 就比 Qwen 2.5 7B 好不到哪去。中國兩代的小模型依然很扛打。」
三、本地部署:16GB VRAM 的魔法
硬體門檻
Gemma 4 12B 最大的賣點之一就是低門檻。官方宣稱 16GB VRAM(或統一記憶體)就能跑,這意味著:
- 搭載 Apple M 系列晶片(M1/M2/M3 的 16GB+ 版本)可以直接跑
- 主流筆電(16GB 記憶體)也能部署
- 甚至舊的消費級 GPU(RTX 3060 12GB + CPU offload)勉強可行
量化版本
| 量化 | 模型大小 | 所需顯存 |
|---|---|---|
| Q4 | ~7 GB | ~12-16 GB |
| Q8 | ~12.8 GB | ~24 GB |
Q4 版本已經能在一般筆電上跑出 50+ tokens/sec 的速度(短對話),長上下文會慢一些但依然可用。
生態系支援
Gemma 4 12B 的開源生態已經非常成熟:
- 推理引擎:llama.cpp、MLX、vLLM、SGLang、Hugging Face Transformers 全部支援
- 微調工具:Unsloth 支援高效微調
- 部署平台:Google Cloud、Gemini Enterprise Agent Platform、Cloud Run、GKE
- 桌面工具:LM Studio、Ollama 一鍵安裝
四、Multi-Token Prediction(MTP):加速的秘密武器
Gemma 4 12B 內建了 Multi-Token Prediction drafter,這是一種猜解編碼(speculative decoding)技術。
原理簡述
- 用一個超小型的 drafter 模型先「猜」接下來幾個 token
- 用 12B 的主模型一次性驗證
- 猜對的 token 一次接受,大幅減少推理步數
這跟之前點子 free 那篇「十年 Xeon 跑 Gemma 4 26B」文章中提到的 MTP 優化是同一套技術。差別在於,Gemma 4 12B 的 drafter 是內建的,不需要額外下載或訓練。
實際效果
在相同硬體上,開啟 MTP 後推理速度可提升 2-3 倍。這對本地部署的體驗提升非常明顯——從「能跑」變成「好用」。
五、多模態實戰:聽、看、說
Gemma 4 12B 的多模態能力是這次更新的重頭戲:
音訊理解
- 可直接輸入音訊檔案,進行轉錄、情感分析、語音編輯
- 原生音訊輸入意味著音訊和文字的處理在同一个模型中完成,一致性更好
影像理解
- 支援圖片上傳與對話
- 可進行影像描述、物件偵測、視覺推理
影片處理
- 社群實測中展示了上傳影片後讓模型進行轉錄和摘要的能力
- 處理速度在本地硬體上可接受
六、開源生態:1.5 億下載背後的社群力量
Google 提到,Gemma 4 系列整體下載量已突破 1.5 億次。社群已經用 Gemma 4 開發了各種應用:
- 穿戴式機械臂(物理輔助)
- 企業級 AI 安全系統
- 各種 edge device 上的本地推理
同時,Google 也釋出了官方的 Gemma Skills Repository——一個專為 agent 設計的技能庫,讓 agent 能用 Gemma 模型更高效地進行開發和推理。
七、總結:Gemma 4 12B 值不值得用?
優點
- ✅ 16GB VRAM 即可部署,硬體門檻低
- ✅ Encoder-free 架構帶來更低的延遲和更小的記憶體佔用
- ✅ 原生音訊輸入,多模態能力完整
- ✅ Apache 2.0 授權,商業使用自由
- ✅ MTP drafter 內建,推理速度可觀
- ✅ 生態系成熟,工具鏈完善
缺點
- ❌ 跟 Qwen 2.5 7B 相比沒有明顯優勢
- ❌ 長上下文和數學能力不如更大的模型
- ❌ 多模態能力雖然完整,但跟 GPT-4V、Claude Vision 等閉源模型仍有差距
- ❌ 12B 在複雜 agentic 任務中可能不夠用
適合誰?
- 個人開發者:想用便宜硬體跑多模態模型 → 適合
- 邊緣裝置開發:需要低延遲、本地推理 → 非常適合
- 企業 agent 應用:需要穩定、可微調的中型模型 → 值得考慮
- 追求極致效能:想要最好的多模態能力 → 還是閉源模型更強
給開發者的建議
- 如果你的硬體只有 16GB:Gemma 4 12B Q4 是目前最好的選擇之一
- 如果你在做多模態應用:原生音訊輸入是加分項,省掉編碼器也意味著更少的依賴
- 如果你在用 Qwen 2.5 7B:可以試試 Gemma 4 12B,兩者互為備選,取決於你的工作負載
- 别忘了開啟 MTP:內建 drafter 不用白不用,速度提升很明顯
原文:Introducing Gemma 4 12B: a unified, encoder-free multimodal model — Google DeepMind 官方部落格,2026 年 6 月 3 日
補充實測:Gemma 4 12B 本地部署實測影片(YouTube)