<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Agentic Coding on 凱凱的技術筆記</title><link>https://kaikai365.com/tags/agentic-coding/</link><description>Recent content in Agentic Coding on 凱凱的技術筆記</description><generator>Hugo</generator><language>zh-TW</language><lastBuildDate>Fri, 26 Jun 2026 10:30:00 +0800</lastBuildDate><atom:link href="https://kaikai365.com/tags/agentic-coding/index.xml" rel="self" type="application/rss+xml"/><item><title>Ornith-1.0 釋出：開源智慧體編碼模型的新里程碑</title><link>https://kaikai365.com/posts/2026-06-26-ornith-1-0-open-source-agentic-coding-model/</link><pubDate>Fri, 26 Jun 2026 10:30:00 +0800</pubDate><guid>https://kaikai365.com/posts/2026-06-26-ornith-1-0-open-source-agentic-coding-model/</guid><description>&lt;p>近期開源 AI 圈迎來了一項引人注目的發布——由 DeepReinforce 推出的 &lt;strong>Ornith-1.0&lt;/strong> 模型系列。這組專為 Agentic Coding（智慧體編碼）設計的開源模型，在發布後迅速成為社群討論的焦點。本文將從模型架構、基準測試表現、核心技術創新與部署可行性等面向，客觀分析 Ornith-1.0 的亮點與潛在價值。&lt;/p>
&lt;h2 id="模型背景與版本架構">模型背景與版本架構&lt;/h2>
&lt;p>Ornith-1.0 系列建立在 &lt;strong>Gemma 4&lt;/strong> 與 &lt;strong>Qwen 3.5&lt;/strong> 的預訓練模型之上，共推出四個參數量版本：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>模型版本&lt;/th>
&lt;th>架構類型&lt;/th>
&lt;th>適用場景&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Ornith-1.0-9B&lt;/td>
&lt;td>Dense（稠密）&lt;/td>
&lt;td>邊緣裝置、IDE 整合&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Ornith-1.0-31B&lt;/td>
&lt;td>Dense（稠密）&lt;/td>
&lt;td>均衡效能與資源&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Ornith-1.0-35B MoE&lt;/td>
&lt;td>MoE（混合專家）&lt;/td>
&lt;td>本地部署首選&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Ornith-1.0-397B MoE&lt;/td>
&lt;td>MoE（混合專家）&lt;/td>
&lt;td>旗艦級雲端部署&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>其中，397B MoE 是本次發布的旗艦模型，僅有 17B 的活躍參數（active parameters）。而 35B MoE 版本則被視為「甜蜜點」——參數量遠低於旗艦版，但在多項編碼基準測試中卻能逼近甚至超越 397B 大模型的表現。&lt;/p>
&lt;p>所有模型均採用 &lt;strong>MIT 授權協議&lt;/strong>，允許商業與研究用途，無任何額外限制。&lt;/p>
&lt;h2 id="基準測試表現">基準測試表現&lt;/h2>
&lt;p>根據官方公布的數據，Ornith-1.0 在多個主流編碼智慧體基準測試中取得了亮眼的成績。以下整理主要結果：&lt;/p>
&lt;h3 id="旗艦版397b-moe">旗艦版（397B MoE）&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>測試項目&lt;/th>
&lt;th>Ornith-1.0-397B&lt;/th>
&lt;th>Claude Opus 4.7&lt;/th>
&lt;th>Claude Opus 4.8&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Terminal-Bench 2.1&lt;/td>
&lt;td>&lt;strong>77.5&lt;/strong>&lt;/td>
&lt;td>70.3&lt;/td>
&lt;td>85.0&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>SWE-Bench Verified&lt;/td>
&lt;td>&lt;strong>82.4&lt;/strong>&lt;/td>
&lt;td>80.8&lt;/td>
&lt;td>87.6&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>SWE-Bench Pro&lt;/td>
&lt;td>62.2&lt;/td>
&lt;td>—&lt;/td>
&lt;td>69.2&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>SWE-Bench Multilingual&lt;/td>
&lt;td>78.9&lt;/td>
&lt;td>—&lt;/td>
&lt;td>—&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>NL2Repo&lt;/td>
&lt;td>48.2&lt;/td>
&lt;td>—&lt;/td>
&lt;td>—&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>ClawEval&lt;/td>
&lt;td>77.1&lt;/td>
&lt;td>—&lt;/td>
&lt;td>—&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>在 Terminal-Bench 2.1 與 SWE-Bench Verified 兩項測試中，397B 版本超越了 Claude Opus 4.7，展現了開源模型在編碼智慧體任務上的競爭力。&lt;/p></description></item></channel></rss>