前言

2026 年 6 月底,AI 開源圈丟出一顆炸彈——Empero AI 發布了 Qwythos-9B-Claude-Mythos-5-1M。短短幾天內,這個模型在 Hugging Face 上衝上熱門榜,Reddit 的 SelfHostedAI 社群也沸騰了。

為什麼一個 9B 參數的模型能引起這麼大關注?簡單說:它在 9B 級別中,同時拿下了 1M token 上下文窗口無限制推理能力、以及 原生工具調用——三個通常不會出現在同一個模型身上的標籤。

但它的訓練數據來自閉源的 Claude Mythos,效能表現有強項也有弱項,部署還不算太友善。這篇文章會帶你從技術規格、效能表現、社群反饋到業界爭議,完整拆解 Qwythos-9B 到底值不值得關注。

- 廣告 -

一、模型是什麼?誰做的?

Qwythos-9B 是由 Empero AI(一家中國 AI 實驗室)開發的開源推理模型。它的基座是 Qwen3.5-9B,經過全參數微調(不是 LoRA 那種輕量微調),目標是打造一個「在專業領域不跳 boilerplate、能自主驗證事實、能處理超長上下文的推理模型」。

授權是 Apache-2.0,意味著你可以自由商用、修改、再分發。

這裡有個有趣的命名細節:「Qwythos」這個名字,應該是取自 Claude 的 Mythos 系列(Mythos + Fable),再加上 Qwen 的「Q」字頭,暗示它與這兩者的淵源。

二、核心技術規格

我們直接看重點:

項目規格
基座模型Qwen3.5-9B(深度無限制版)
訓練數據5 億+ tokens 的 Claude Mythos / Fable traces
上下文窗口1,048,576 tokens(1M,YaRN rope-scaling ×4)
架構混合 Gated-DeltaNet(次二次方記憶體增長)
LicenseApache-2.0
推理模式文字為主(基座多模態,但只訓練了文字路徑)

1M 上下文是什麼概念? 大約等於 75-80 萬個中文字。換句話說,你可以把一個中型專案的整個程式碼庫、幾十篇學術論文、或者一整天的 Agentic 工作流記錄,全部塞進它的上下文裡。

在 9B 級別的開源模型中,這個上下文窗口目前幾乎沒有對手。

三、效能表現:強項與弱項

Empero 在 Hugging Face 上公開了與基座 Qwen3.5-9B 的對比數據。我們用表格整理:

任務基座 Qwen3.5-9BQwythos-9B變化
MMLU0.2320.575+34.3 pts
gsm8k-strict0.5100.810+30.0 pts
gsm8k-flex+19 pts
arc_challenge0.4000.410+0.01
gpqa_diamond0.6300.580-5 pts

MMLU 的高分分支數表現(Qwythos-9B):

  • 政府 / 政治:0.78
  • 大學生物:0.77
  • 概念物理:0.74

強項分析

MMLU +34.3 分 在 9B 級模型中是非常驚人的提升。這意味著 Qwythos 在跨領域知識測驗中,從「 barely above random」直接跳到了「有實質競爭力」的水準。特別是在政治、生物、物理等知識密集型領域,表現甚至接近某些 13B-14B 級模型。

gsm8k-strict +30 分 則說明它的數學推理能力大幅躍升。從 51% 到 81%,這個提升幅度在同樣的參數規模下非常罕見。

弱項分析

但 gpqa_diamond 從 0.630 降到 0.580,這個 -5 分的倒退 值得注意。gpqa_diamond 測試的是高階科學推理(PhD 等級的知識),這說明 Qwythos 的訓練數據更偏向領域知識(MMLU 擅長的原因),而非純粹的高階推理。

簡單講:它是一個「知識豐富的推理者」,但不是「推理能力無敵的學者」。

四、三大核心能力

1. 無限制推理(Uncensored Reasoning)

一般模型在回答敏感領域問題時,習慣先來一段「根據最新研究…」「通常來說…」的 boilerplate。Qwythos-9B 的設計哲學是:專業用戶需要可執行的技術數據,不是安全提醒

在資安、藥理學、臨床醫學等領域,它幾乎不會拒絕或含糊其辭。Empero 建議在最終用戶層面自行加上一層安全過濾,而不是在模型內部做限制。

2. 原生工具調用(Native Tool Calling)

Qwythos-9B 支援 OpenAI / Qwen3.5 風格的 function calling,內建 python_executorweb_search 工具鏈。

它的特色是自我驗證:如果初始搜索結果不夠,模型會自動調整查詢策略,重新搜索、交叉比對、確認事實。這在 Agentic 工作流中非常實用。

⚠️ 但要注意:模型本身沒有原生網路能力,你需要自行提供工具 runtime,並手動解析它的 <tool_call> 輸出區塊。

3. 1M 上下文窗口

這是 Qwythos-9B 最大的賣點。在 9B 級開源模型中,它幾乎沒有對手。

配置細節:

"rope_parameters": {
  "rope_type": "yarn",
  "factor": 4.0,
  "original_max_position_embeddings": 262144,
  "mrope_interleaved": true,
  "mrope_section": [11, 11, 10],
  "rope_theta": 10000000
},
"max_position_embeddings": 1048576

YaRN rope-scaling ×4 的設定,讓原本 262K 的上下文擴展到 1M。但要注意——

五、硬體現實:1M 不等於隨便跑

1M 上下文 ≠ 任何 GPU 都能跑滿。

Qwythos-9B 的 Gated-DeltaNet 架構在 256K 以下有次二次方的記憶體增長,表現不錯。但要跑滿 1M,你需要:

  • 多 GPU tensor-parallel
  • 或者強力的 KV-cache offload(CPU 記憶體)

實際部署建議: 從 32k → 64k → 128k → 256k 逐步擴展,確認穩定後再往上推。如果你只有一張 24GB VRAM 的消費級顯卡(如 RTX 4090),跑 Q4 量化版在 128K-256K 上下文下體驗會很不錯。

六、採樣參數:用錯會跑迴圈

Qwythos-9B 對採樣參數非常敏感。Empero 官方推薦:

temperature=0.6,
top_p=0.95,
top_k=20,
repetition_penalty=1.05,
max_new_tokens=16384

⚠️ 關鍵提醒: temperature ≤ 0.3 會觸發非終止推理迴圈(repetition loops)。這是推理模型常見的問題,但 Qwythos-9B 尤其明顯。不要用 greedy decoding 或低溫,否則你會看到它不斷重複同一個推理步驟。

七、訓練方法:Claude Mythos 的「影子」

Qwythos-9B 的訓練數據來自 Claude Mythos 和 Claude Fable 的 session traces。Empero 使用內部工具 「rethink」 來生成 Chain-of-Thought:

  1. 將完整對話傳入多個 LLM
  2. 合成深入的分析式 CoT
  3. 用啟發式和確定性方法驗證輸出格式
  4. 全參數微調

這種方法讓模型學會「假設 → 驗證 → 結論」的推理結構。有趣的是,Empero 明確表示 Qwythos 不是要模仿 Claude 的人格,而是一個獨立的微調模型——它不會「假裝自己是 Claude」。

八、業界爭議:Claude 數據的版權風險

這是 Qwythos-9B 最受關注的話題之一。

Claude Mythos 是 Anthropic 的閉源模型,從未公開。Empero 透過某種方式取得了它的 session traces(可能是大規模合成數據生成 / distillation),用來訓練 Qwythos-9B。

爭議點:

  • Anthropic 的 ToS 明確禁止用模型輸出訓練競爭系統
  • 這種做法與 OpenAI 面對 Fine Web / StarCoder 的版權糾紛如出一轍
  • 如果 Anthropic 採取法律行動,Qwythos-9B 可能面臨下架風險

目前 Apache-2.0 授權無法保證未來合規性。如果你是用來做內部研究,風險很低;如果是商業產品,建議關注後續發展。

九、社群反饋:網友真實體驗

Reddit r/SelfHostedAI 的討論區是收集第一手反饋的最佳場所。以下是整理出的社群共識:

正面評價

  • 「在 9B 級模型中,推理能力確實突出,特別是知識密集型任務」
  • 「1M 上下文對程式碼庫分析非常實用,一次讀完整個專案」
  • 「工具調用整合度比同級模型好,自我驗證機制很聰明」
  • 「無限制特性讓它在技術領域不像一般模型那樣『結巴』」

中性 / 負面評價

  • 部分用戶覺得 Qwopus 9B 等其他競爭對手在特定場景下體驗更好
  • 需要精確的 sampling 參數,否則容易跑推理迴圈
  • 對 Ollama 用戶有 TLS 證書錯誤(經確認是本地網路環境問題)
  • 輸出帶有 `` 標籤,需自行後處理
  • gpqa_diamond 下降說明高階推理仍有短板
  • 不是「萬能解」—— 不適合角色扮演或創意寫作

社群共識

  • 最適合:分析、醫學推理、資安、程式碼理解
  • 不太適合:角色扮演、創意寫作、需要精準推理的學術場景
  • 在 9B 級別中屬於頂梯,但離真正「通用」還有距離

十、部署方式速查

vLLM(推薦用於 API 服務)

vllm serve empero-ai/Qwythos-9B-Claude-Mythos-5-1M --max-model-len 1010000

SGLang(推薦用於高效能推理)

SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server \
  --model-path empero-ai/Qwythos-9B-Claude-Mythos-5-1M \
  --context-length 1010000

Ollama(GGUF 量化,適合單卡)

ollama run hf.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M-GGUF:Q4_K_M

Transformers(Python 自訂整合)

from transformers import AutoModelForImageTextToText, AutoTokenizer

model_id = "empero-ai/Qwythos-9B-Claude-Mythos-5-1M"
tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
    model_id, dtype="bfloat16", device_map="auto"
)

十一、未來路線圖

Empero 的計畫不止於此:

  • Qwythos-27B:更大參數的 Mythos 系列,預計會進一步提升推理能力
  • Qwable-9B-Claude-Fable-5:另一個分支模型
  • 壓縮 CoT(compressed CoT):減少推理 token 消耗
  • 潛式推理閥門(latent-reasoning gates / adaptive thinking):讓模型自適應調整推理深度
  • 純 PyTorch ported 的 frontier 架構:無需 proprietary kernels,在任何環境都能訓練和量化

十二、總結:值不值得關注?

維度評分備註
推理能力⭐⭐⭐⭐☆9B 級頂梯,但 gpqa 下降
上下文長度⭐⭐⭐⭐⭐1M 在 9B 級無對手
工具調用⭐⭐⭐⭐☆原生支援,需自行整合 runtime
部署友好度⭐⭐⭐☆☆參數敏感,硬體要求高
商業風險⭐⭐☆☆☆Claude 數據來源有法律爭議
整體推薦度⭐⭐⭐⭐☆適合研究 / 開發者,不適合新手

我的結論: Qwythos-9B 是目前 9B 級開源模型中很有野心的作品。1M 上下文 + 無限制推理 + 原生工具調用的組合拳確實有獨特性,MMLU +34 分的提升也證明了訓練方法的價值。

但它不是「萬能解」—— gpqa 下降說明高階推理還有天花板,Claude 數據來源帶來法律不確定性,採樣參數敏感也增加了部署門檻。

適合誰? 研究人員、開發者、需要長上下文分析的專業用戶。 不適合誰? 想要开箱即用、不關心技術細節的一般用戶。

如果你有一張 24GB VRAM 的顯卡,強烈建議下載 GGUF 量化版試試看。1M 上下文在 9B 級別的體驗,目前確實沒有其他開源模型能給。

- 廣告 -

參考資料:Hugging Face 模型頁面Empero 官方發布Reddit r/SelfHostedAI 討論部署指南