Ornith

近期開源 AI 圈迎來了一項引人注目的發布——由 DeepReinforce 推出的 Ornith-1.0 模型系列。這組專為 Agentic Coding（智慧體編碼）設計的開源模型，在發布後迅速成為社群討論的焦點。本文將從模型架構、基準測試表現、核心技術創新與部署可行性等面向，客觀分析 Ornith-1.0 的亮點與潛在價值。模型背景與版本架構 Ornith-1.0 系列建立在 Gemma 4 與 Qwen 3.5 的預訓練模型之上，共推出四個參數量版本：模型版本架構類型適用場景 Ornith-1.0-9B Dense（稠密）邊緣裝置、IDE 整合 Ornith-1.0-31B Dense（稠密）均衡效能與資源 Ornith-1.0-35B MoE MoE（混合專家）本地部署首選 Ornith-1.0-397B MoE MoE（混合專家）旗艦級雲端部署其中，397B MoE 是本次發布的旗艦模型，僅有 17B 的活躍參數（active parameters）。而 35B MoE 版本則被視為「甜蜜點」——參數量遠低於旗艦版，但在多項編碼基準測試中卻能逼近甚至超越 397B 大模型的表現。所有模型均採用 MIT 授權協議，允許商業與研究用途，無任何額外限制。基準測試表現根據官方公布的數據，Ornith-1.0 在多個主流編碼智慧體基準測試中取得了亮眼的成績。以下整理主要結果：旗艦版（397B MoE）測試項目 Ornith-1.0-397B Claude Opus 4.7 Claude Opus 4.8 Terminal-Bench 2.1 77.5 70.3 85.0 SWE-Bench Verified 82.4 80.8 87.6 SWE-Bench Pro 62.2 — 69.2 SWE-Bench Multilingual 78.9 — — NL2Repo 48.2 — — ClawEval 77.1 — — 在 Terminal-Bench 2.1 與 SWE-Bench Verified 兩項測試中，397B 版本超越了 Claude Opus 4.7，展現了開源模型在編碼智慧體任務上的競爭力。 ...