Gemma 4 12B 深度評測：Google 的encoder-free 多模態小巨人

Fri, 05 Jun 2026 11:10:00 +0800

引言：12B 的參數，26B 的野心

2026 年 6 月 3 日，Google DeepMind 在官方部落格發表了一篇看似平淡卻暗藏殺機的聲明——Gemma 4 12B 正式開源。

這聽起來只是一個數字遊戲：12B 參數、Apache 2.0 授權、16GB VRAM 就能跑。但如果你仔細看它的架構設計和基準測試數據，會發現 Google 在這款「中型」模型上塞進了不少過去只有大模型才有的黑科技。

這篇文章結合 Google 官方技術部落格與社群實測影片，來一次完整拆解：Gemma 4 12B 到底強在哪裡？值得你從 Qwen 2.5 7B 跳槽嗎？

大多數多模態大模型（比如早期的 GPT-4V、Claude Vision）都採用「編碼器 + LLM」的雙段式架構：

這個流程的問題很明顯：編碼器佔記憶體、增加延遲、而且每個模態都要單獨訓練一套編碼器。

Gemma 4 12B 做了兩件大事：

視覺處理： 用一個極輕量的嵌入模組取代了傳統視覺編碼器——只有一個矩陣乘法、位置嵌入（positional embedding）和正規化。換句話說，圖片被直接投影到跟文字相同的向量空間，然後由 LLM 主幹直接處理視覺資訊。

音訊處理： 更徹底。直接把原始音訊訊號投影到文字 token 的維度空間，完全省掉了音訊編碼器。這也是 Gemma 4 系列第一個內建原生音訊輸入的中型模型。

這種 encoder-free 架構的好處是：

用 Google 的原話說：「我們讓 LLM backbone 自己接管視覺處理。」