Ornith-1.0 釋出：開源智慧體編碼模型的新里程碑

近期開源 AI 圈迎來了一項引人注目的發布——由 DeepReinforce 推出的 Ornith-1.0 模型系列。這組專為 Agentic Coding（智慧體編碼）設計的開源模型，在發布後迅速成為社群討論的焦點。本文將從模型架構、基準測試表現、核心技術創新與部署可行性等面向，客觀分析 Ornith-1.0 的亮點與潛在價值。

模型背景與版本架構

Ornith-1.0 系列建立在 Gemma 4 與 Qwen 3.5 的預訓練模型之上，共推出四個參數量版本：

模型版本	架構類型	適用場景
Ornith-1.0-9B	Dense（稠密）	邊緣裝置、IDE 整合
Ornith-1.0-31B	Dense（稠密）	均衡效能與資源
Ornith-1.0-35B MoE	MoE（混合專家）	本地部署首選
Ornith-1.0-397B MoE	MoE（混合專家）	旗艦級雲端部署

其中，397B MoE 是本次發布的旗艦模型，僅有 17B 的活躍參數（active parameters）。而 35B MoE 版本則被視為「甜蜜點」——參數量遠低於旗艦版，但在多項編碼基準測試中卻能逼近甚至超越 397B 大模型的表現。

所有模型均採用 MIT 授權協議，允許商業與研究用途，無任何額外限制。

基準測試表現

根據官方公布的數據，Ornith-1.0 在多個主流編碼智慧體基準測試中取得了亮眼的成績。以下整理主要結果：

旗艦版（397B MoE）

測試項目	Ornith-1.0-397B	Claude Opus 4.7	Claude Opus 4.8
Terminal-Bench 2.1	77.5	70.3	85.0
SWE-Bench Verified	82.4	80.8	87.6
SWE-Bench Pro	62.2	—	69.2
SWE-Bench Multilingual	78.9	—	—
NL2Repo	48.2	—	—
ClawEval	77.1	—	—

在 Terminal-Bench 2.1 與 SWE-Bench Verified 兩項測試中，397B 版本超越了 Claude Opus 4.7，展現了開源模型在編碼智慧體任務上的競爭力。

小尺寸版本

模型	Terminal-Bench 2.1	SWE-Bench Verified
Ornith-1.0-9B	43.1	69.4
Ornith-1.0-35B MoE	64.4	—
Qwen 3.5-397B	53.5	—

值得注意的是，35B MoE 版本在 Terminal-Bench 2.1 上以 64.4 分的成績超越了 Qwen 3.5-397B 的 53.5 分。這意味著僅有 35B 參數的模型，在編碼智慧體任務上的表現，超越了參數量接近其 11 倍的 Qwen 3.5-397B。

核心技術創新：自我支撐架構（Self-Scaffolding）

Ornith-1.0 最引人注目的技術突破，在於其 「Self-Scaffolding」 架構。

傳統編碼智慧體依賴人類手動設計的固定「 harness」（即模型調用工具、管理記憶體、組織執行流程的邏輯框架）。Ornith-1.0 則將這個 harness 本身視為一個可學習的物件，讓模型在強化學習過程中，同時優化「架構生成」與「解決方案生成」。

具體而言，訓練過程分為兩個階段：

階段一：模型根據任務提出一個優化後的 scaffold（執行架構）。
階段二：模型基於該 scaffold 生成解決方案。

兩個階段的獎勵會同時回傳，使模型能協同優化自身的組織邏輯與編碼能力。

這種「讓模型學會如何規劃自己的執行流程」的做法，被開發者稱為自動化智慧體策略（Automation of Agentic Strategy）。它跳過了傳統手動提示工程（Prompt Engineering）與框架設計的瓶頸，讓模型自主發現比人類設計的更高效的搜索路徑。

防作弊機制

為防止模型在基準測試中「作弊」（例如直接讀取測試答案），DeepReinforce 實施了三層防護：

固定信任邊界：環境、工具表面與測試隔離層對模型策略不可變。
確定性監控器：自動標記並懲罰模型讀取隱藏路徑等違規操作。
凍結 LLM 法官：在驗證器之上增加一層最終否決機制，捕捉意圖級的作弊行為。

部署與使用方式

Ornith-1.0 提供了多種部署選項，涵蓋從雲端到本地消費級硬體：

雲端部署

模型支援 vLLM、SGLang 與 Transformers 三大框架，並提供 OpenAI 相容的 API 端點，方便與現有智慧體框架整合。

vllm serve deepreinforce-ai/Ornith-1.0-9B \
  --served-model-name Ornith-1.0-9B \
  --max-model-len 262144 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_xml \
  --reasoning-parser qwen3 \
  --trust-remote-code

本地部署

官方提供了 GGUF 量化格式（透過 Hugging Face 上的 Ornith-1.0-35B-GGUF 與 Ornith-1.0-9B-GGUF 集合），支援 Ollama 與 Unsloth 等本地推理工具。根據社群測試，35B MoE 的 Q4 量化版本約需 21GB 顯存，意味著擁有 24GB 或 48GB 顯存的消費級 GPU（如 RTX 3090/4090）即可流暢運行。

程式碼範例

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
resp = client.chat.completions.create(
    model="Ornith-1.0-9B",
    messages=[{"role": "user", "content": "Write a Python is_prime(n)."}],
    temperature=0.6,
    top_p=0.95,
)
msg = resp.choices[0].message
print(getattr(msg, "reasoning_content", None))  # 推理追蹤
print(msg.content)  # 最終答案

社群觀點與實測反饋

模型發布後，在 r/LocalLLaMA 等社群引發了熱烈討論。以下是從社群中提取的幾個主要觀點：

正面評價：

多數開發者對 35B MoE 版本的「性價比」表示認可，認為它在本地部署可行性與編碼能力之間取得了良好的平衡。
有開發者分享本地實測結果，表示在實際 Vibe Coding 工作流中，35B 版本的表現與 Qwen 3.6-35B 相當，但在某些特定編碼任務上展現出優勢。
GGUF 格式的提供被視為一大亮點，降低了本地部署的門檻。

謹慎觀點：

部分社群成員指出，基準測試的表現不等於實際開發體驗。在真實的私有程式碼倉庫中，面對雜亂的依賴關係與未文件化的 API，模型的表現仍有待驗證。
有開發者提到，目前仍需確認 chat template 是否正確配置，才能確保推理結果與訓練條件一致。
針對 397B 旗艦版，社群認為其適合需要最高準確率的倉庫級任務，但對一般開發者而言，記憶體與運算成本偏高。

總結與展望

Ornith-1.0 的發布，標誌著開源編碼模型從「純參數量競爭」轉向「工作流優化」的新階段。其核心的 Self-Scaffolding 架構，讓模型不再只是被動地回答編碼問題，而是學會自主規劃執行流程、從失敗中恢復、並動態調整策略。

從實際應用角度來看：

小型專案或邊緣部署：9B Dense 版本提供了在單張 GPU 上運行編碼智慧體的可行方案。
本地開發者首選：35B MoE 版本在效能與硬體需求之間取得了最佳平衡，適合擁有 24GB+ 顯存的開發者本地部署。
企業級任務：397B MoE 版本在 SWE-Bench 等基準上超越了 Claude Opus 4.7，適合需要處理大型程式碼倉庫的場景。

當然，作為一個剛發布的模型系列，Ornith-1.0 仍面臨一些挑戰：真實環境中的泛化能力、推理延遲與吞吐量的平衡、以及長期穩定性，都需要時間來驗證。但無論如何，這確實是開源編碼智慧體領域一個值得關注的進展。

模型背景與版本架構#

基準測試表現#

旗艦版（397B MoE）#

小尺寸版本#

核心技術創新：自我支撐架構（Self-Scaffolding）#

防作弊機制#

部署與使用方式#

雲端部署#

本地部署#

程式碼範例#

社群觀點與實測反饋#

總結與展望#

參考資源#