<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>上下文管理 on 凱凱的技術筆記</title><link>https://kaikai365.com/tags/%E4%B8%8A%E4%B8%8B%E6%96%87%E7%AE%A1%E7%90%86/</link><description>Recent content in 上下文管理 on 凱凱的技術筆記</description><generator>Hugo</generator><language>zh-TW</language><lastBuildDate>Mon, 29 Jun 2026 10:30:00 +0800</lastBuildDate><atom:link href="https://kaikai365.com/tags/%E4%B8%8A%E4%B8%8B%E6%96%87%E7%AE%A1%E7%90%86/index.xml" rel="self" type="application/rss+xml"/><item><title>Hermes Agent 上下文膨脹實錄：從 1.6K 到 2.8K，你的 token 都去哪了？</title><link>https://kaikai365.com/posts/2026-06-29-hermes-agent-context-token-bloat/</link><pubDate>Mon, 29 Jun 2026 10:30:00 +0800</pubDate><guid>https://kaikai365.com/posts/2026-06-29-hermes-agent-context-token-bloat/</guid><description>&lt;p>前陣子我發現一個現象：Hermes Agent 第一次發話時的初始上下文，從之前的 1.6K tokens 左右，悄悄爬升到了 2.8K tokens，增幅接近 75%。&lt;/p>
&lt;p>起初以為只是個人設定差異，結果去 Reddit 的 r/hermesagent 一看——好家伙，幾乎 everybody 都在抱怨同樣的事。&lt;/p>
&lt;p>這篇就來好好聊聊這個問題：從發現、原因分析、社群反饋到實戰解法，一次講清楚。&lt;/p>
&lt;div class="adsense-container" style="margin: 20px 0; text-align: center;">
&lt;span style="font-size: 12px; color: #888; display: block; margin-bottom: 5px;">- 廣告 -&lt;/span>
&lt;ins class="adsbygoogle"
style="display:block; text-align:center;"
data-ad-layout="in-article"
data-ad-format="fluid"
data-ad-client="ca-pub-7490556205068980"
data-ad-slot="YYYYYYYYYY">&lt;/ins>
&lt;script>
(adsbygoogle = window.adsbygoogle || []).push({});
&lt;/script>
&lt;/div>
&lt;h2 id="什麼叫初始上下文為什麼它很重要">什麼叫「初始上下文」？為什麼它很重要？&lt;/h2>
&lt;p>在深入之前，先釐清一個概念：Hermes Agent 每次發話（無論你只打一個「hi」），都會把完整的 system prompt 送給模型。這包含：&lt;/p>
&lt;ul>
&lt;li>核心行為規則與 persona&lt;/li>
&lt;li>所有已載入工具的 schema 定義&lt;/li>
&lt;li>Skill 清單（名稱 + 描述）&lt;/li>
&lt;li>AGENTS.md（開發者指南）&lt;/li>
&lt;li>Memory、User Profile、SOUL.md 等個人設定&lt;/li>
&lt;/ul>
&lt;p>這些全部打包在一起，就是所謂的「初始上下文」或「system overhead」。&lt;/p>
&lt;p>&lt;strong>為什麼重要？&lt;/strong> 因為這塊 overhead 是固定成本。你發一句「今天天氣如何」和發一段 5000 字的程式碼需求，初始上下文幾乎是一樣的。對 token 計費的模型來說，這意味著你在為「沒用到的東西」付費。&lt;/p></description></item></channel></rss>