Claude Fable 5 全面評測:能力超強還是性價比陷阱?

2026 年 6 月 9 日,Anthropic 推出了他們全新的 Mythos-class 旗艦模型——Claude Fable 5。這是 Anthropic 首次將「Mythos 級」intelligence 開放給公眾使用,號稱在軟體工程、知識工作、視覺理解和科學研究等領域都是「state-of-the-art」。

然而,這個模型的上線過程一波三折:首發僅一週就因美國政府出口管制被強制下架,經過 13 天的沉默期後,終於在 7 月 1 日以「強化安全防護」的版本重新回歸。

這篇文章整合了 CodeRabbit、Simon Willison、Lenny’s Newsletter、Endor Labs、Vellum、DataCamp 等專業評測,以及 Reddit、Hacker News 等社群的大量真實反饋,帶你完整認識 Fable 5 到底值不值得用。

- 廣告 -

模型基本規格

項目規格
模型系列Mythos-class(Anthropic 新旗艦級)
API IDclaude-fable-5
Context Window1,000,000 tokens
最大輸出128,000 tokens
知識截止2026 年 1 月
定價$10/1M input / $50/1M output(是 Opus 4.x 的 2 倍)
Batch 定價$5/1M input / $25/1M output
上線日期2026/6/9 首發 → 6/12 因出口管制暫停 → 7/1 重新上線
安全策略觸發 classifier 時靜默回退到 Opus 4.8(<5% 的 session)

⚠️ 訂閱方案注意: Pro/Max/Team 僅到 2026/7/7 前含 Fable 5 使用額度,之後需額外扣 credit。

Mythos 雙胞胎:Fable 5 與 Mythos 5

Anthropic 同時推出了兩個版本:

  • Claude Fable 5:公開版,帶有安全 classifier,一般用戶和企業都能用
  • Claude Mythos 5:同底層模型,但移除了 cybersecurity、biology、chemistry 的安全限制,僅開放給政府與關鍵基礎設施供應商的「Project Glasswing」計畫

兩者共享相同的推理能力,差異在於安全過濾的嚴格程度。

Benchmark 表現:數據說話

核心 benchmark 對比

BenchmarkFable 5GPT-5.5Opus 4.8
SWE-Bench Pro80.3%58.6%69.2%
FrontierCode Diamond29.3%5.7%13.4%
Terminal-Bench 2.188.0%83.4%
Humanity’s Last Exam64.5%52.2%
OSWorld-Verified85.0%78.7%
Hex Core Analytics>90%
GDP.pdf (Vision)29.8%24.9%
BioMysteryBench (Mythos)46.1%40.0%
Cybersecurity (Mythos)78.0%40.0%

單看數字,Fable 5 幾乎在所有公開 benchmark 上都領先。SWE-Bench Pro 的 80.3% 更是比 GPT-5.5 高出 22 個百分點,差距驚人。

社群對 benchmark 的質疑

不過,Reddit 和 Hacker News 的用戶並未全盤接受這些數字:

  • SWE-bench 飽和問題: 多位用戶指出 SWE-bench 和 SWE Pro 已有 data leakage,Anthropic 自己也承認 Opus 和 Mythos 有「memorize 錯誤答案」
  • 安全回退影響分數: 有使用者發現 Fable 5 在數學密集任務觸發安全 filter 時會留白或回退到 Opus 4.8,導致分數落在兩者之間
  • 缺少部分標準 metric: ARC AGI 3 等常見 benchmark 未公布
  • 社群建議用 MineBench / ProgramBench 驗證真正推理能力

總結來說,Fable 5 的 benchmark 表現確實亮眼,但部分數字可能受到 data contamination 和安全回退機制的影響,解讀時需要保留一點懷疑。

優點與亮點

1. 複雜推理與架構設計

Lenny’s Newsletter 的評測指出,Fable 5 在「高階架構任務」上表現出色,例如建立 product graph specifications 和設計 skills registry。更重要的是,它在 multi-agent orchestration(多 agent 協調)上有顯著改進,能同時管理多個 agent 的複雜工作流程。

CodeRabbit 的評測中有一句精闢的觀察:

“Fable 5 是不確定任務下,改變 agent 體驗的模型。它導向探索:先了解環境,再識別檔案、工具和限制,然後從這個扎實的圖景中開始建構。”

2. 自主編程能力

Fable 5 在自主編程方面的表現尤其突出。根據 Anthropic 的官方案例,Fable 5 能在一天內完成一個 5000 萬行 Ruby 程式碼庫的 migration——這個任務估算需要一個團隊花兩個月才能完成。

Simon Willison 的實測中,Fable 5 成功幫助將 MicroPython-WASM 專案移植到完整 CPython,迭代 build constraints 並產出可用的 Python wheel。同時,Fable 5 也為 llm 庫(v0.32a3)撰寫了複雜的 llm.PauseChain feature,實現了 human-in-the-loop 的工具執行。

3. 世界知識

Simon Willison 做了一個有趣的對比測試:詢問 Fable 5 和 Opus 4.8 各自關於他的開源專案。Fable 5 給出了一份高度準確、按時間排序的專案列表,並自信地指出 Simon Willison 是「Django 的聯合創始人、Datasette 的創造者」,列出了數百個 repos 中的知名專案。相比之下,Opus 4.8 則表現得更為謹慎和含糊。

4. 長程記憶與持續性

在「長程記憶」任務上,Fable 5 展現了驚人的進步。根據 Vellum 的評測,在 Slay the Spire 等複雜遊戲中,Fable 5 的表現是 Opus 4.8 的 3 倍。這意味著它能持續數小時甚至數天的任務中保持連貫性,並利用持久化記憶在任務中不斷改進輸出。

缺點與痛點

1. 價格高昂(最大痛點)

Fable 5 的定價是 Opus 4.x 的 2 倍——$10/1M input / $50/1M output。但這還不是全部,因為 Fable 5 被設計為「token-intensive by design」,意味著它會消耗比預期更多的 tokens。

Simon Willison 用 agentsview 追蹤了自己一天的重度開發用量(包含建構 Datasette Agent feature),總共花了 $110.42。他在測試中也發現,「thinking effort」從 low 拉到 max,token 使用量從約 1,900 暴增到 14,400。

CodeRabbit 建議開發者:「用 cost per solved task 來評估 Fable 5,而非只看 token 單價。」

2. 安全 classifier 的 silent fallback

這是 Fable 5 最常被忽視但也最關鍵的設計。當 Fable 5 的 classifier 偵測到 cybersecurity、biology/chemistry 或 model distillation 相關的查詢時,會「無縫」將請求回退到 Claude Opus 4.8。

根據 Vellum 的統計,這個 fallback 發生在 <5% 的 session 中。換句話說,大約每 20 次對話,你可能以為自己在跟 Fable 5 聊天,實際上跑的是 Opus 4.8。

這對 agentic pipeline 構成可靠性風險——回退後推理深度下降,可能導致 patch 不完整或 security invariant 丟失。Endor Labs 的測試顯示,Claude Code(內建 fallback)在 SecPass 上僅 19.0%,而 Cursor + Fable 5 則達到 29%。

3. 過度探索(over-explore)

CodeRabbit 的評測中發現,Fable 5 在沒有明確 stop rule 的 workflow 中傾向「一直跑直到 agent timeout」。這產生了兩個問題:

  • 成本不可控: 沒有時間、step 或 token 限制的 agent workflow 會快速消耗 credit
  • code review precision 偏低: Fable 5 的 actionable precision 僅 32.8%(Opus 4.8 為 35.5%),且 comment 噪音(nitpick-style 的意見)較多

4. 保守執行

Lenny’s Newsletter 的評測指出,Fable 5 雖然「高度智能」,但在執行上偏保守——傾向安全、可預測的解法,而非創新的跳躍。加上它被設計為「token-intensive」,延遲(latency)明顯高於 lighter、更快的模型。

5. 30 天強制資料保留

所有 Mythos-class 模型的流量都強制保留 30 天(不用於訓練),這是 Anthropic 用來防禦 multi-request attack 的設計。但對於有 zero-retention policy 的企業來說,這是一個「hard blocker」。

6. 社群吐槽精選

從 Reddit 和 Hacker News 收集的真實反饋:

“claude gets confused into knots on tasks of normal complexity — i limit and guide it through anything im doing” — r/ClaudeCode 用戶

“Progress but not a paradigm shift.” — r/singularity 用戶

“Way more expensive for barely better performance.” — 社群討論

“Far and away from the mind-blowing earth-shattering paradigm shift that they told us this was going to be. Impressive? Absolutely. But it’s still an LLM.” — r/singularity 用戶

Fable 5 vs GPT-5.5:該選誰?

根據 DataCamp 和 MindStudio 的對比分析,以下是兩者的核心差異:

維度Fable 5GPT-5.5推薦
SWE-Bench Pro80.3%58.6%Fable 5
執行一致性較不穩定(會 timeout)更一致直接GPT-5.5
Planning 能力更強(wider aperture)較弱Fable 5
執行效率較慢、token 消耗大快 20-30%GPT-5.5
500K+ context未公布 MRCR 分數74.0%GPT-5.5
安全分類器會靜默回退不會GPT-5.5
前端/React跟隨規範好更一致GPT-5.5
Python/TS/Rust更強Fable 5
成本$10/$50$5/$30GPT-5.5

社群共識:混合工作流(Hybrid Workflow)

Hacker News 討論中最熱門的建議是採用「混合工作流」:

  1. Planning 階段 → 用 Claude(Fable/Opus)做架構設計和規劃
  2. Execution 階段 → 用 GPT-5.5 寫 code 和實作
  3. Review 階段 → 用 GPT 或 Opus 做 code review

一位 HN 用戶的總結非常精闢:

“Claude 寫出你預期的 code 約 90% 的時間,且持續遵循專案規範;而 Codex(GPT)則會開始進行不必要的抽象和間接。”

另一位用戶則建議:「讓 planning 模型產生一個 PLAN.md 檔案,然後交給執行模型去實作。」

什麼情況下該用 Fable 5?

✅ 推薦使用

  • 複雜、多步驟、長程推理任務
  • 大型程式碼庫的自主 migration / refactoring
  • 需要多檔案理解 + 多 agent 協調
  • 安全敏感的 coding(但 review 用 Opus)
  • 需要深度世界知識的領域
  • 從零建構複雜應用(one-shot development)

❌ 建議用 Opus 4.8 或 GPT-5.5

  • 日常 code review(Fable 5 precision 不足)
  • 快速腳本 / 單一功能 build
  • 高頻 API workload(成本考量)
  • 前端 React/Next.js 開發
  • 需要 zero-retention 的企業
  • 不需要超複雜推理的任務
- 廣告 -

安全機制:Fable 5 的「防禦深度」

Fable 5 的安全架構是它最獨特的設計之一。Anthropic 採用了「defense in depth」策略,主要依賴 safety classifiers(自動系統)來偵測和阻擋有害請求。

三大安全分類器

  1. Cybersecurity: 偵測軟體漏洞識別和 exploit 生成
  2. Biology/Chemistry: 偵測生物和化學領域的特定查詢
  3. Model Distillation: 防止用戶用 Fable 5 訓練 rival 的 frontier model

回退機制

當 classifier 觸發時,請求會「靜默」回退到 Claude Opus 4.8。Anthropic 估算這個回退發生在 <5% 的 session 中。有趣的是,如果你觸發回退,你會被收取 Opus 4.8 的較低費率($5/$25)。

7/1 重新上線的新 classifier

Fable 5 在 6/12 被下架的原因是 Amazon 的報告指出 Fable 5 能識別軟體漏洞並提供 exploit code。Anthropic 的調查發現,Opus 4.8、GPT-5.5 和 Kimi K2.7 也能識別相同的漏洞並產生相同的 exploit。

因此,Anthropic 訓練了一個改進的 safety classifier,能在 >99% 的情況下阻擋報告中描述的特定技術。代價是:新的 classifier 可能增加「false positives」,將 benign 的 coding 和 debugging 請求標記為有害。

總結:Fable 5 值不值得用?

Fable 5 確實是 技術上的重大進步,在 coding、推理、長程任務上有明顯領先。但它不是社群期待的「paradigm shift」——更像是 迭代式升級

核心矛盾

能力強 vs 價格貴 + 安全回退的可靠性風險

對於一般使用者,Opus 4.8 的性價比更高;對於需要自主 agent 的大型專案,Fable 5 值得測試,但要設定好 budget 和 stop rule。

我的建議

  1. 如果你是個人開發者: 先用 Opus 4.8 處理日常任務,遇到複雜問題時再切換 Fable 5
  2. 如果你是團隊 leader: 在 Pro/Max 方案中充分利用到 7/7 的免費額度,測試 Fable 5 在團隊 workflow 中的表現
  3. 如果你是企業用戶: 評估 30 天資料保留是否為 hard blocker,並考慮混合工作流(Fable 5 planning + GPT-5.5 execution)
  4. 如果你是安全研究員: 申請 Project Glasswing 取得 Mythos 5 的 unrestricted 版本

最後,用 CodeRabbit 的一句評測做結尾:

“Fable 5 is the kind of model that changes how an agent feels when the task is underspecified.”

這句話準確地描述了 Fable 5 的定位:它不是用來取代所有其他模型的萬能解,而是在「任務不夠明確」的灰色地帶中,展現出超越前代模型的探索能力和自主性。

這正是它最迷人的地方,也是它最需要被「正確使用」的原因。


參考資料:CodeRabbit、Simon Willison’s Blog、Lenny’s Newsletter、Endor Labs、Vellum、DataCamp、MindStudio、Hacker News、Reddit r/ClaudeAI、Reddit r/singularity、Anthropic 官方公告