Qwythos-9B 深度解析：1M 上下文 + 無限制推理，9B 級開源模型的天花板在哪裡？

前言

2026 年 6 月底，AI 開源圈丟出一顆炸彈——Empero AI 發布了 Qwythos-9B-Claude-Mythos-5-1M。短短幾天內，這個模型在 Hugging Face 上衝上熱門榜，Reddit 的 SelfHostedAI 社群也沸騰了。

為什麼一個 9B 參數的模型能引起這麼大關注？簡單說：它在 9B 級別中，同時拿下了 1M token 上下文窗口、無限制推理能力、以及 原生工具調用——三個通常不會出現在同一個模型身上的標籤。

但它的訓練數據來自閉源的 Claude Mythos，效能表現有強項也有弱項，部署還不算太友善。這篇文章會帶你從技術規格、效能表現、社群反饋到業界爭議，完整拆解 Qwythos-9B 到底值不值得關注。

一、模型是什麼？誰做的？

Qwythos-9B 是由 Empero AI（一家中國 AI 實驗室）開發的開源推理模型。它的基座是 Qwen3.5-9B，經過全參數微調（不是 LoRA 那種輕量微調），目標是打造一個「在專業領域不跳 boilerplate、能自主驗證事實、能處理超長上下文的推理模型」。

授權是 Apache-2.0，意味著你可以自由商用、修改、再分發。

這裡有個有趣的命名細節：「Qwythos」這個名字，應該是取自 Claude 的 Mythos 系列（Mythos + Fable），再加上 Qwen 的「Q」字頭，暗示它與這兩者的淵源。

二、核心技術規格

我們直接看重點：

項目	規格
基座模型	Qwen3.5-9B（深度無限制版）
訓練數據	5 億+ tokens 的 Claude Mythos / Fable traces
上下文窗口	1,048,576 tokens（1M，YaRN rope-scaling ×4）
架構	混合 Gated-DeltaNet（次二次方記憶體增長）
License	Apache-2.0
推理模式	文字為主（基座多模態，但只訓練了文字路徑）

1M 上下文是什麼概念？ 大約等於 75-80 萬個中文字。換句話說，你可以把一個中型專案的整個程式碼庫、幾十篇學術論文、或者一整天的 Agentic 工作流記錄，全部塞進它的上下文裡。

在 9B 級別的開源模型中，這個上下文窗口目前幾乎沒有對手。

三、效能表現：強項與弱項

Empero 在 Hugging Face 上公開了與基座 Qwen3.5-9B 的對比數據。我們用表格整理：

任務	基座 Qwen3.5-9B	Qwythos-9B	變化
MMLU	0.232	0.575	+34.3 pts
gsm8k-strict	0.510	0.810	+30.0 pts
gsm8k-flex	—	—	+19 pts
arc_challenge	0.400	0.410	+0.01
gpqa_diamond	0.630	0.580	-5 pts

MMLU 的高分分支數表現（Qwythos-9B）：

政府 / 政治：0.78
大學生物：0.77
概念物理：0.74

強項分析

MMLU +34.3 分 在 9B 級模型中是非常驚人的提升。這意味著 Qwythos 在跨領域知識測驗中，從「 barely above random」直接跳到了「有實質競爭力」的水準。特別是在政治、生物、物理等知識密集型領域，表現甚至接近某些 13B-14B 級模型。

gsm8k-strict +30 分 則說明它的數學推理能力大幅躍升。從 51% 到 81%，這個提升幅度在同樣的參數規模下非常罕見。

弱項分析

但 gpqa_diamond 從 0.630 降到 0.580，這個 -5 分的倒退 值得注意。gpqa_diamond 測試的是高階科學推理（PhD 等級的知識），這說明 Qwythos 的訓練數據更偏向領域知識（MMLU 擅長的原因），而非純粹的高階推理。

簡單講：它是一個「知識豐富的推理者」，但不是「推理能力無敵的學者」。

四、三大核心能力

1. 無限制推理（Uncensored Reasoning）

一般模型在回答敏感領域問題時，習慣先來一段「根據最新研究…」「通常來說…」的 boilerplate。Qwythos-9B 的設計哲學是：專業用戶需要可執行的技術數據，不是安全提醒。

在資安、藥理學、臨床醫學等領域，它幾乎不會拒絕或含糊其辭。Empero 建議在最終用戶層面自行加上一層安全過濾，而不是在模型內部做限制。

2. 原生工具調用（Native Tool Calling）

Qwythos-9B 支援 OpenAI / Qwen3.5 風格的 function calling，內建 python_executor 和 web_search 工具鏈。

它的特色是自我驗證：如果初始搜索結果不夠，模型會自動調整查詢策略，重新搜索、交叉比對、確認事實。這在 Agentic 工作流中非常實用。

⚠️ 但要注意：模型本身沒有原生網路能力，你需要自行提供工具 runtime，並手動解析它的 <tool_call> 輸出區塊。

3. 1M 上下文窗口

這是 Qwythos-9B 最大的賣點。在 9B 級開源模型中，它幾乎沒有對手。

配置細節：

"rope_parameters": {
  "rope_type": "yarn",
  "factor": 4.0,
  "original_max_position_embeddings": 262144,
  "mrope_interleaved": true,
  "mrope_section": [11, 11, 10],
  "rope_theta": 10000000
},
"max_position_embeddings": 1048576

YaRN rope-scaling ×4 的設定，讓原本 262K 的上下文擴展到 1M。但要注意——

五、硬體現實：1M 不等於隨便跑

1M 上下文 ≠ 任何 GPU 都能跑滿。

Qwythos-9B 的 Gated-DeltaNet 架構在 256K 以下有次二次方的記憶體增長，表現不錯。但要跑滿 1M，你需要：

多 GPU tensor-parallel
或者強力的 KV-cache offload（CPU 記憶體）

實際部署建議： 從 32k → 64k → 128k → 256k 逐步擴展，確認穩定後再往上推。如果你只有一張 24GB VRAM 的消費級顯卡（如 RTX 4090），跑 Q4 量化版在 128K-256K 上下文下體驗會很不錯。

六、採樣參數：用錯會跑迴圈

Qwythos-9B 對採樣參數非常敏感。Empero 官方推薦：

temperature=0.6,
top_p=0.95,
top_k=20,
repetition_penalty=1.05,
max_new_tokens=16384

⚠️ 關鍵提醒： temperature ≤ 0.3 會觸發非終止推理迴圈（repetition loops）。這是推理模型常見的問題，但 Qwythos-9B 尤其明顯。不要用 greedy decoding 或低溫，否則你會看到它不斷重複同一個推理步驟。

七、訓練方法：Claude Mythos 的「影子」

Qwythos-9B 的訓練數據來自 Claude Mythos 和 Claude Fable 的 session traces。Empero 使用內部工具 「rethink」 來生成 Chain-of-Thought：

將完整對話傳入多個 LLM
合成深入的分析式 CoT
用啟發式和確定性方法驗證輸出格式
全參數微調

這種方法讓模型學會「假設 → 驗證 → 結論」的推理結構。有趣的是，Empero 明確表示 Qwythos 不是要模仿 Claude 的人格，而是一個獨立的微調模型——它不會「假裝自己是 Claude」。

八、業界爭議：Claude 數據的版權風險

這是 Qwythos-9B 最受關注的話題之一。

Claude Mythos 是 Anthropic 的閉源模型，從未公開。Empero 透過某種方式取得了它的 session traces（可能是大規模合成數據生成 / distillation），用來訓練 Qwythos-9B。

爭議點：

Anthropic 的 ToS 明確禁止用模型輸出訓練競爭系統
這種做法與 OpenAI 面對 Fine Web / StarCoder 的版權糾紛如出一轍
如果 Anthropic 採取法律行動，Qwythos-9B 可能面臨下架風險

目前 Apache-2.0 授權無法保證未來合規性。如果你是用來做內部研究，風險很低；如果是商業產品，建議關注後續發展。

九、社群反饋：網友真實體驗

Reddit r/SelfHostedAI 的討論區是收集第一手反饋的最佳場所。以下是整理出的社群共識：

正面評價

「在 9B 級模型中，推理能力確實突出，特別是知識密集型任務」
「1M 上下文對程式碼庫分析非常實用，一次讀完整個專案」
「工具調用整合度比同級模型好，自我驗證機制很聰明」
「無限制特性讓它在技術領域不像一般模型那樣『結巴』」

中性 / 負面評價

部分用戶覺得 Qwopus 9B 等其他競爭對手在特定場景下體驗更好
需要精確的 sampling 參數，否則容易跑推理迴圈
對 Ollama 用戶有 TLS 證書錯誤（經確認是本地網路環境問題）
輸出帶有 `` 標籤，需自行後處理
gpqa_diamond 下降說明高階推理仍有短板
不是「萬能解」—— 不適合角色扮演或創意寫作

社群共識

最適合：分析、醫學推理、資安、程式碼理解
不太適合：角色扮演、創意寫作、需要精準推理的學術場景
在 9B 級別中屬於頂梯，但離真正「通用」還有距離

十、部署方式速查

vLLM（推薦用於 API 服務）

vllm serve empero-ai/Qwythos-9B-Claude-Mythos-5-1M --max-model-len 1010000

SGLang（推薦用於高效能推理）

SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server \
  --model-path empero-ai/Qwythos-9B-Claude-Mythos-5-1M \
  --context-length 1010000

Ollama（GGUF 量化，適合單卡）

ollama run hf.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M-GGUF:Q4_K_M

Transformers（Python 自訂整合）

from transformers import AutoModelForImageTextToText, AutoTokenizer

model_id = "empero-ai/Qwythos-9B-Claude-Mythos-5-1M"
tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
    model_id, dtype="bfloat16", device_map="auto"
)

十一、未來路線圖

Empero 的計畫不止於此：

Qwythos-27B：更大參數的 Mythos 系列，預計會進一步提升推理能力
Qwable-9B-Claude-Fable-5：另一個分支模型
壓縮 CoT（compressed CoT）：減少推理 token 消耗
潛式推理閥門（latent-reasoning gates / adaptive thinking）：讓模型自適應調整推理深度
純 PyTorch ported 的 frontier 架構：無需 proprietary kernels，在任何環境都能訓練和量化

十二、總結：值不值得關注？

維度	評分	備註
推理能力	⭐⭐⭐⭐☆	9B 級頂梯，但 gpqa 下降
上下文長度	⭐⭐⭐⭐⭐	1M 在 9B 級無對手
工具調用	⭐⭐⭐⭐☆	原生支援，需自行整合 runtime
部署友好度	⭐⭐⭐☆☆	參數敏感，硬體要求高
商業風險	⭐⭐☆☆☆	Claude 數據來源有法律爭議
整體推薦度	⭐⭐⭐⭐☆	適合研究 / 開發者，不適合新手

我的結論： Qwythos-9B 是目前 9B 級開源模型中很有野心的作品。1M 上下文 + 無限制推理 + 原生工具調用的組合拳確實有獨特性，MMLU +34 分的提升也證明了訓練方法的價值。

但它不是「萬能解」—— gpqa 下降說明高階推理還有天花板，Claude 數據來源帶來法律不確定性，採樣參數敏感也增加了部署門檻。

適合誰？ 研究人員、開發者、需要長上下文分析的專業用戶。 不適合誰？ 想要开箱即用、不關心技術細節的一般用戶。

如果你有一張 24GB VRAM 的顯卡，強烈建議下載 GGUF 量化版試試看。1M 上下文在 9B 級別的體驗，目前確實沒有其他開源模型能給。

參考資料：Hugging Face 模型頁面、Empero 官方發布、Reddit r/SelfHostedAI 討論、部署指南

前言#

一、模型是什麼？誰做的？#

二、核心技術規格#

三、效能表現：強項與弱項#

強項分析#

弱項分析#

四、三大核心能力#

1. 無限制推理（Uncensored Reasoning）#

2. 原生工具調用（Native Tool Calling）#

3. 1M 上下文窗口#

五、硬體現實：1M 不等於隨便跑#

六、採樣參數：用錯會跑迴圈#

七、訓練方法：Claude Mythos 的「影子」#

八、業界爭議：Claude 數據的版權風險#

九、社群反饋：網友真實體驗#

正面評價#

中性 / 負面評價#

社群共識#

十、部署方式速查#

vLLM（推薦用於 API 服務）#

SGLang（推薦用於高效能推理）#

Ollama（GGUF 量化，適合單卡）#

Transformers（Python 自訂整合）#

十一、未來路線圖#

十二、總結：值不值得關注？#

前言