Claude Fable 5 全面評測：能力超強還是性價比陷阱？

2026 年 6 月 9 日，Anthropic 推出了他們全新的 Mythos-class 旗艦模型——Claude Fable 5。這是 Anthropic 首次將「Mythos 級」intelligence 開放給公眾使用，號稱在軟體工程、知識工作、視覺理解和科學研究等領域都是「state-of-the-art」。

然而，這個模型的上線過程一波三折：首發僅一週就因美國政府出口管制被強制下架，經過 13 天的沉默期後，終於在 7 月 1 日以「強化安全防護」的版本重新回歸。

這篇文章整合了 CodeRabbit、Simon Willison、Lenny’s Newsletter、Endor Labs、Vellum、DataCamp 等專業評測，以及 Reddit、Hacker News 等社群的大量真實反饋，帶你完整認識 Fable 5 到底值不值得用。

模型基本規格

項目	規格
模型系列	Mythos-class（Anthropic 新旗艦級）
API ID	`claude-fable-5`
Context Window	1,000,000 tokens
最大輸出	128,000 tokens
知識截止	2026 年 1 月
定價	$10/1M input / $50/1M output（是 Opus 4.x 的 2 倍）
Batch 定價	$5/1M input / $25/1M output
上線日期	2026/6/9 首發 → 6/12 因出口管制暫停 → 7/1 重新上線
安全策略	觸發 classifier 時靜默回退到 Opus 4.8（<5% 的 session）

⚠️ 訂閱方案注意： Pro/Max/Team 僅到 2026/7/7 前含 Fable 5 使用額度，之後需額外扣 credit。

Mythos 雙胞胎：Fable 5 與 Mythos 5

Anthropic 同時推出了兩個版本：

Claude Fable 5：公開版，帶有安全 classifier，一般用戶和企業都能用
Claude Mythos 5：同底層模型，但移除了 cybersecurity、biology、chemistry 的安全限制，僅開放給政府與關鍵基礎設施供應商的「Project Glasswing」計畫

兩者共享相同的推理能力，差異在於安全過濾的嚴格程度。

Benchmark 表現：數據說話

核心 benchmark 對比

Benchmark	Fable 5	GPT-5.5	Opus 4.8
SWE-Bench Pro	80.3%	58.6%	69.2%
FrontierCode Diamond	29.3%	5.7%	13.4%
Terminal-Bench 2.1	88.0%	83.4%	—
Humanity’s Last Exam	64.5%	52.2%	—
OSWorld-Verified	85.0%	78.7%	—
Hex Core Analytics	>90%	—	—
GDP.pdf (Vision)	29.8%	24.9%	—
BioMysteryBench (Mythos)	46.1%	—	40.0%
Cybersecurity (Mythos)	78.0%	—	40.0%

單看數字，Fable 5 幾乎在所有公開 benchmark 上都領先。SWE-Bench Pro 的 80.3% 更是比 GPT-5.5 高出 22 個百分點，差距驚人。

社群對 benchmark 的質疑

不過，Reddit 和 Hacker News 的用戶並未全盤接受這些數字：

SWE-bench 飽和問題： 多位用戶指出 SWE-bench 和 SWE Pro 已有 data leakage，Anthropic 自己也承認 Opus 和 Mythos 有「memorize 錯誤答案」
安全回退影響分數： 有使用者發現 Fable 5 在數學密集任務觸發安全 filter 時會留白或回退到 Opus 4.8，導致分數落在兩者之間
缺少部分標準 metric： ARC AGI 3 等常見 benchmark 未公布
社群建議用 MineBench / ProgramBench 驗證真正推理能力

總結來說，Fable 5 的 benchmark 表現確實亮眼，但部分數字可能受到 data contamination 和安全回退機制的影響，解讀時需要保留一點懷疑。

優點與亮點

1. 複雜推理與架構設計

Lenny’s Newsletter 的評測指出，Fable 5 在「高階架構任務」上表現出色，例如建立 product graph specifications 和設計 skills registry。更重要的是，它在 multi-agent orchestration（多 agent 協調）上有顯著改進，能同時管理多個 agent 的複雜工作流程。

CodeRabbit 的評測中有一句精闢的觀察：

“Fable 5 是不確定任務下，改變 agent 體驗的模型。它導向探索：先了解環境，再識別檔案、工具和限制，然後從這個扎實的圖景中開始建構。”

2. 自主編程能力

Fable 5 在自主編程方面的表現尤其突出。根據 Anthropic 的官方案例，Fable 5 能在一天內完成一個 5000 萬行 Ruby 程式碼庫的 migration——這個任務估算需要一個團隊花兩個月才能完成。

Simon Willison 的實測中，Fable 5 成功幫助將 MicroPython-WASM 專案移植到完整 CPython，迭代 build constraints 並產出可用的 Python wheel。同時，Fable 5 也為 llm 庫（v0.32a3）撰寫了複雜的 llm.PauseChain feature，實現了 human-in-the-loop 的工具執行。

3. 世界知識

Simon Willison 做了一個有趣的對比測試：詢問 Fable 5 和 Opus 4.8 各自關於他的開源專案。Fable 5 給出了一份高度準確、按時間排序的專案列表，並自信地指出 Simon Willison 是「Django 的聯合創始人、Datasette 的創造者」，列出了數百個 repos 中的知名專案。相比之下，Opus 4.8 則表現得更為謹慎和含糊。

4. 長程記憶與持續性

在「長程記憶」任務上，Fable 5 展現了驚人的進步。根據 Vellum 的評測，在 Slay the Spire 等複雜遊戲中，Fable 5 的表現是 Opus 4.8 的 3 倍。這意味著它能持續數小時甚至數天的任務中保持連貫性，並利用持久化記憶在任務中不斷改進輸出。

缺點與痛點

1. 價格高昂（最大痛點）

Fable 5 的定價是 Opus 4.x 的 2 倍——$10/1M input / $50/1M output。但這還不是全部，因為 Fable 5 被設計為「token-intensive by design」，意味著它會消耗比預期更多的 tokens。

Simon Willison 用 agentsview 追蹤了自己一天的重度開發用量（包含建構 Datasette Agent feature），總共花了 $110.42。他在測試中也發現，「thinking effort」從 low 拉到 max，token 使用量從約 1,900 暴增到 14,400。

CodeRabbit 建議開發者：「用 cost per solved task 來評估 Fable 5，而非只看 token 單價。」

2. 安全 classifier 的 silent fallback

這是 Fable 5 最常被忽視但也最關鍵的設計。當 Fable 5 的 classifier 偵測到 cybersecurity、biology/chemistry 或 model distillation 相關的查詢時，會「無縫」將請求回退到 Claude Opus 4.8。

根據 Vellum 的統計，這個 fallback 發生在 <5% 的 session 中。換句話說，大約每 20 次對話，你可能以為自己在跟 Fable 5 聊天，實際上跑的是 Opus 4.8。

這對 agentic pipeline 構成可靠性風險——回退後推理深度下降，可能導致 patch 不完整或 security invariant 丟失。Endor Labs 的測試顯示，Claude Code（內建 fallback）在 SecPass 上僅 19.0%，而 Cursor + Fable 5 則達到 29%。

3. 過度探索（over-explore）

CodeRabbit 的評測中發現，Fable 5 在沒有明確 stop rule 的 workflow 中傾向「一直跑直到 agent timeout」。這產生了兩個問題：

成本不可控： 沒有時間、step 或 token 限制的 agent workflow 會快速消耗 credit
code review precision 偏低： Fable 5 的 actionable precision 僅 32.8%（Opus 4.8 為 35.5%），且 comment 噪音（nitpick-style 的意見）較多

4. 保守執行

Lenny’s Newsletter 的評測指出，Fable 5 雖然「高度智能」，但在執行上偏保守——傾向安全、可預測的解法，而非創新的跳躍。加上它被設計為「token-intensive」，延遲（latency）明顯高於 lighter、更快的模型。

5. 30 天強制資料保留

所有 Mythos-class 模型的流量都強制保留 30 天（不用於訓練），這是 Anthropic 用來防禦 multi-request attack 的設計。但對於有 zero-retention policy 的企業來說，這是一個「hard blocker」。

6. 社群吐槽精選

從 Reddit 和 Hacker News 收集的真實反饋：

“claude gets confused into knots on tasks of normal complexity — i limit and guide it through anything im doing” — r/ClaudeCode 用戶

“Progress but not a paradigm shift.” — r/singularity 用戶

“Way more expensive for barely better performance.” — 社群討論

“Far and away from the mind-blowing earth-shattering paradigm shift that they told us this was going to be. Impressive? Absolutely. But it’s still an LLM.” — r/singularity 用戶

Fable 5 vs GPT-5.5：該選誰？

根據 DataCamp 和 MindStudio 的對比分析，以下是兩者的核心差異：

維度	Fable 5	GPT-5.5	推薦
SWE-Bench Pro	80.3%	58.6%	Fable 5
執行一致性	較不穩定（會 timeout）	更一致直接	GPT-5.5
Planning 能力	更強（wider aperture）	較弱	Fable 5
執行效率	較慢、token 消耗大	快 20-30%	GPT-5.5
500K+ context	未公布 MRCR 分數	74.0%	GPT-5.5
安全分類器	會靜默回退	不會	GPT-5.5
前端/React	跟隨規範好	更一致	GPT-5.5
Python/TS/Rust	更強	—	Fable 5
成本	$10/$50	$5/$30	GPT-5.5

社群共識：混合工作流（Hybrid Workflow）

Hacker News 討論中最熱門的建議是採用「混合工作流」：

Planning 階段 → 用 Claude（Fable/Opus）做架構設計和規劃
Execution 階段 → 用 GPT-5.5 寫 code 和實作
Review 階段 → 用 GPT 或 Opus 做 code review

一位 HN 用戶的總結非常精闢：

“Claude 寫出你預期的 code 約 90% 的時間，且持續遵循專案規範；而 Codex（GPT）則會開始進行不必要的抽象和間接。”

另一位用戶則建議：「讓 planning 模型產生一個 PLAN.md 檔案，然後交給執行模型去實作。」

什麼情況下該用 Fable 5？

✅ 推薦使用

複雜、多步驟、長程推理任務
大型程式碼庫的自主 migration / refactoring
需要多檔案理解 + 多 agent 協調
安全敏感的 coding（但 review 用 Opus）
需要深度世界知識的領域
從零建構複雜應用（one-shot development）

❌ 建議用 Opus 4.8 或 GPT-5.5

日常 code review（Fable 5 precision 不足）
快速腳本 / 單一功能 build
高頻 API workload（成本考量）
前端 React/Next.js 開發
需要 zero-retention 的企業
不需要超複雜推理的任務

安全機制：Fable 5 的「防禦深度」

Fable 5 的安全架構是它最獨特的設計之一。Anthropic 採用了「defense in depth」策略，主要依賴 safety classifiers（自動系統）來偵測和阻擋有害請求。

三大安全分類器

Cybersecurity： 偵測軟體漏洞識別和 exploit 生成
Biology/Chemistry： 偵測生物和化學領域的特定查詢
Model Distillation： 防止用戶用 Fable 5 訓練 rival 的 frontier model

回退機制

當 classifier 觸發時，請求會「靜默」回退到 Claude Opus 4.8。Anthropic 估算這個回退發生在 <5% 的 session 中。有趣的是，如果你觸發回退，你會被收取 Opus 4.8 的較低費率（$5/$25）。

7/1 重新上線的新 classifier

Fable 5 在 6/12 被下架的原因是 Amazon 的報告指出 Fable 5 能識別軟體漏洞並提供 exploit code。Anthropic 的調查發現，Opus 4.8、GPT-5.5 和 Kimi K2.7 也能識別相同的漏洞並產生相同的 exploit。

因此，Anthropic 訓練了一個改進的 safety classifier，能在 >99% 的情況下阻擋報告中描述的特定技術。代價是：新的 classifier 可能增加「false positives」，將 benign 的 coding 和 debugging 請求標記為有害。

總結：Fable 5 值不值得用？

Fable 5 確實是 技術上的重大進步，在 coding、推理、長程任務上有明顯領先。但它不是社群期待的「paradigm shift」——更像是 迭代式升級。

核心矛盾

能力強 vs 價格貴 + 安全回退的可靠性風險

對於一般使用者，Opus 4.8 的性價比更高；對於需要自主 agent 的大型專案，Fable 5 值得測試，但要設定好 budget 和 stop rule。

我的建議

如果你是個人開發者： 先用 Opus 4.8 處理日常任務，遇到複雜問題時再切換 Fable 5
如果你是團隊 leader： 在 Pro/Max 方案中充分利用到 7/7 的免費額度，測試 Fable 5 在團隊 workflow 中的表現
如果你是企業用戶： 評估 30 天資料保留是否為 hard blocker，並考慮混合工作流（Fable 5 planning + GPT-5.5 execution）
如果你是安全研究員： 申請 Project Glasswing 取得 Mythos 5 的 unrestricted 版本

最後，用 CodeRabbit 的一句評測做結尾：

“Fable 5 is the kind of model that changes how an agent feels when the task is underspecified.”

這句話準確地描述了 Fable 5 的定位：它不是用來取代所有其他模型的萬能解，而是在「任務不夠明確」的灰色地帶中，展現出超越前代模型的探索能力和自主性。

這正是它最迷人的地方，也是它最需要被「正確使用」的原因。

參考資料：CodeRabbit、Simon Willison’s Blog、Lenny’s Newsletter、Endor Labs、Vellum、DataCamp、MindStudio、Hacker News、Reddit r/ClaudeAI、Reddit r/singularity、Anthropic 官方公告

Claude Fable 5 全面評測：能力超強還是性價比陷阱？#

模型基本規格#

Mythos 雙胞胎：Fable 5 與 Mythos 5#

Benchmark 表現：數據說話#

核心 benchmark 對比#

社群對 benchmark 的質疑#

優點與亮點#

1. 複雜推理與架構設計#

2. 自主編程能力#

3. 世界知識#

4. 長程記憶與持續性#

缺點與痛點#

1. 價格高昂（最大痛點）#

2. 安全 classifier 的 silent fallback#

3. 過度探索（over-explore）#

4. 保守執行#

5. 30 天強制資料保留#

6. 社群吐槽精選#

Fable 5 vs GPT-5.5：該選誰？#

社群共識：混合工作流（Hybrid Workflow）#

什麼情況下該用 Fable 5？#

✅ 推薦使用#

❌ 建議用 Opus 4.8 或 GPT-5.5#

安全機制：Fable 5 的「防禦深度」#

三大安全分類器#

回退機制#

7/1 重新上線的新 classifier#

總結：Fable 5 值不值得用？#

核心矛盾#

我的建議#