Claude Fable 5 全面評測:能力超強還是性價比陷阱?
2026 年 6 月 9 日,Anthropic 推出了他們全新的 Mythos-class 旗艦模型——Claude Fable 5。這是 Anthropic 首次將「Mythos 級」intelligence 開放給公眾使用,號稱在軟體工程、知識工作、視覺理解和科學研究等領域都是「state-of-the-art」。
然而,這個模型的上線過程一波三折:首發僅一週就因美國政府出口管制被強制下架,經過 13 天的沉默期後,終於在 7 月 1 日以「強化安全防護」的版本重新回歸。
這篇文章整合了 CodeRabbit、Simon Willison、Lenny’s Newsletter、Endor Labs、Vellum、DataCamp 等專業評測,以及 Reddit、Hacker News 等社群的大量真實反饋,帶你完整認識 Fable 5 到底值不值得用。
模型基本規格
| 項目 | 規格 |
|---|---|
| 模型系列 | Mythos-class(Anthropic 新旗艦級) |
| API ID | claude-fable-5 |
| Context Window | 1,000,000 tokens |
| 最大輸出 | 128,000 tokens |
| 知識截止 | 2026 年 1 月 |
| 定價 | $10/1M input / $50/1M output(是 Opus 4.x 的 2 倍) |
| Batch 定價 | $5/1M input / $25/1M output |
| 上線日期 | 2026/6/9 首發 → 6/12 因出口管制暫停 → 7/1 重新上線 |
| 安全策略 | 觸發 classifier 時靜默回退到 Opus 4.8(<5% 的 session) |
⚠️ 訂閱方案注意: Pro/Max/Team 僅到 2026/7/7 前含 Fable 5 使用額度,之後需額外扣 credit。
Mythos 雙胞胎:Fable 5 與 Mythos 5
Anthropic 同時推出了兩個版本:
- Claude Fable 5:公開版,帶有安全 classifier,一般用戶和企業都能用
- Claude Mythos 5:同底層模型,但移除了 cybersecurity、biology、chemistry 的安全限制,僅開放給政府與關鍵基礎設施供應商的「Project Glasswing」計畫
兩者共享相同的推理能力,差異在於安全過濾的嚴格程度。
Benchmark 表現:數據說話
核心 benchmark 對比
| Benchmark | Fable 5 | GPT-5.5 | Opus 4.8 |
|---|---|---|---|
| SWE-Bench Pro | 80.3% | 58.6% | 69.2% |
| FrontierCode Diamond | 29.3% | 5.7% | 13.4% |
| Terminal-Bench 2.1 | 88.0% | 83.4% | — |
| Humanity’s Last Exam | 64.5% | 52.2% | — |
| OSWorld-Verified | 85.0% | 78.7% | — |
| Hex Core Analytics | >90% | — | — |
| GDP.pdf (Vision) | 29.8% | 24.9% | — |
| BioMysteryBench (Mythos) | 46.1% | — | 40.0% |
| Cybersecurity (Mythos) | 78.0% | — | 40.0% |
單看數字,Fable 5 幾乎在所有公開 benchmark 上都領先。SWE-Bench Pro 的 80.3% 更是比 GPT-5.5 高出 22 個百分點,差距驚人。
社群對 benchmark 的質疑
不過,Reddit 和 Hacker News 的用戶並未全盤接受這些數字:
- SWE-bench 飽和問題: 多位用戶指出 SWE-bench 和 SWE Pro 已有 data leakage,Anthropic 自己也承認 Opus 和 Mythos 有「memorize 錯誤答案」
- 安全回退影響分數: 有使用者發現 Fable 5 在數學密集任務觸發安全 filter 時會留白或回退到 Opus 4.8,導致分數落在兩者之間
- 缺少部分標準 metric: ARC AGI 3 等常見 benchmark 未公布
- 社群建議用 MineBench / ProgramBench 驗證真正推理能力
總結來說,Fable 5 的 benchmark 表現確實亮眼,但部分數字可能受到 data contamination 和安全回退機制的影響,解讀時需要保留一點懷疑。
優點與亮點
1. 複雜推理與架構設計
Lenny’s Newsletter 的評測指出,Fable 5 在「高階架構任務」上表現出色,例如建立 product graph specifications 和設計 skills registry。更重要的是,它在 multi-agent orchestration(多 agent 協調)上有顯著改進,能同時管理多個 agent 的複雜工作流程。
CodeRabbit 的評測中有一句精闢的觀察:
“Fable 5 是不確定任務下,改變 agent 體驗的模型。它導向探索:先了解環境,再識別檔案、工具和限制,然後從這個扎實的圖景中開始建構。”
2. 自主編程能力
Fable 5 在自主編程方面的表現尤其突出。根據 Anthropic 的官方案例,Fable 5 能在一天內完成一個 5000 萬行 Ruby 程式碼庫的 migration——這個任務估算需要一個團隊花兩個月才能完成。
Simon Willison 的實測中,Fable 5 成功幫助將 MicroPython-WASM 專案移植到完整 CPython,迭代 build constraints 並產出可用的 Python wheel。同時,Fable 5 也為 llm 庫(v0.32a3)撰寫了複雜的 llm.PauseChain feature,實現了 human-in-the-loop 的工具執行。
3. 世界知識
Simon Willison 做了一個有趣的對比測試:詢問 Fable 5 和 Opus 4.8 各自關於他的開源專案。Fable 5 給出了一份高度準確、按時間排序的專案列表,並自信地指出 Simon Willison 是「Django 的聯合創始人、Datasette 的創造者」,列出了數百個 repos 中的知名專案。相比之下,Opus 4.8 則表現得更為謹慎和含糊。
4. 長程記憶與持續性
在「長程記憶」任務上,Fable 5 展現了驚人的進步。根據 Vellum 的評測,在 Slay the Spire 等複雜遊戲中,Fable 5 的表現是 Opus 4.8 的 3 倍。這意味著它能持續數小時甚至數天的任務中保持連貫性,並利用持久化記憶在任務中不斷改進輸出。
缺點與痛點
1. 價格高昂(最大痛點)
Fable 5 的定價是 Opus 4.x 的 2 倍——$10/1M input / $50/1M output。但這還不是全部,因為 Fable 5 被設計為「token-intensive by design」,意味著它會消耗比預期更多的 tokens。
Simon Willison 用 agentsview 追蹤了自己一天的重度開發用量(包含建構 Datasette Agent feature),總共花了 $110.42。他在測試中也發現,「thinking effort」從 low 拉到 max,token 使用量從約 1,900 暴增到 14,400。
CodeRabbit 建議開發者:「用 cost per solved task 來評估 Fable 5,而非只看 token 單價。」
2. 安全 classifier 的 silent fallback
這是 Fable 5 最常被忽視但也最關鍵的設計。當 Fable 5 的 classifier 偵測到 cybersecurity、biology/chemistry 或 model distillation 相關的查詢時,會「無縫」將請求回退到 Claude Opus 4.8。
根據 Vellum 的統計,這個 fallback 發生在 <5% 的 session 中。換句話說,大約每 20 次對話,你可能以為自己在跟 Fable 5 聊天,實際上跑的是 Opus 4.8。
這對 agentic pipeline 構成可靠性風險——回退後推理深度下降,可能導致 patch 不完整或 security invariant 丟失。Endor Labs 的測試顯示,Claude Code(內建 fallback)在 SecPass 上僅 19.0%,而 Cursor + Fable 5 則達到 29%。
3. 過度探索(over-explore)
CodeRabbit 的評測中發現,Fable 5 在沒有明確 stop rule 的 workflow 中傾向「一直跑直到 agent timeout」。這產生了兩個問題:
- 成本不可控: 沒有時間、step 或 token 限制的 agent workflow 會快速消耗 credit
- code review precision 偏低: Fable 5 的 actionable precision 僅 32.8%(Opus 4.8 為 35.5%),且 comment 噪音(nitpick-style 的意見)較多
4. 保守執行
Lenny’s Newsletter 的評測指出,Fable 5 雖然「高度智能」,但在執行上偏保守——傾向安全、可預測的解法,而非創新的跳躍。加上它被設計為「token-intensive」,延遲(latency)明顯高於 lighter、更快的模型。
5. 30 天強制資料保留
所有 Mythos-class 模型的流量都強制保留 30 天(不用於訓練),這是 Anthropic 用來防禦 multi-request attack 的設計。但對於有 zero-retention policy 的企業來說,這是一個「hard blocker」。
6. 社群吐槽精選
從 Reddit 和 Hacker News 收集的真實反饋:
“claude gets confused into knots on tasks of normal complexity — i limit and guide it through anything im doing” — r/ClaudeCode 用戶
“Progress but not a paradigm shift.” — r/singularity 用戶
“Way more expensive for barely better performance.” — 社群討論
“Far and away from the mind-blowing earth-shattering paradigm shift that they told us this was going to be. Impressive? Absolutely. But it’s still an LLM.” — r/singularity 用戶
Fable 5 vs GPT-5.5:該選誰?
根據 DataCamp 和 MindStudio 的對比分析,以下是兩者的核心差異:
| 維度 | Fable 5 | GPT-5.5 | 推薦 |
|---|---|---|---|
| SWE-Bench Pro | 80.3% | 58.6% | Fable 5 |
| 執行一致性 | 較不穩定(會 timeout) | 更一致直接 | GPT-5.5 |
| Planning 能力 | 更強(wider aperture) | 較弱 | Fable 5 |
| 執行效率 | 較慢、token 消耗大 | 快 20-30% | GPT-5.5 |
| 500K+ context | 未公布 MRCR 分數 | 74.0% | GPT-5.5 |
| 安全分類器 | 會靜默回退 | 不會 | GPT-5.5 |
| 前端/React | 跟隨規範好 | 更一致 | GPT-5.5 |
| Python/TS/Rust | 更強 | — | Fable 5 |
| 成本 | $10/$50 | $5/$30 | GPT-5.5 |
社群共識:混合工作流(Hybrid Workflow)
Hacker News 討論中最熱門的建議是採用「混合工作流」:
- Planning 階段 → 用 Claude(Fable/Opus)做架構設計和規劃
- Execution 階段 → 用 GPT-5.5 寫 code 和實作
- Review 階段 → 用 GPT 或 Opus 做 code review
一位 HN 用戶的總結非常精闢:
“Claude 寫出你預期的 code 約 90% 的時間,且持續遵循專案規範;而 Codex(GPT)則會開始進行不必要的抽象和間接。”
另一位用戶則建議:「讓 planning 模型產生一個 PLAN.md 檔案,然後交給執行模型去實作。」
什麼情況下該用 Fable 5?
✅ 推薦使用
- 複雜、多步驟、長程推理任務
- 大型程式碼庫的自主 migration / refactoring
- 需要多檔案理解 + 多 agent 協調
- 安全敏感的 coding(但 review 用 Opus)
- 需要深度世界知識的領域
- 從零建構複雜應用(one-shot development)
❌ 建議用 Opus 4.8 或 GPT-5.5
- 日常 code review(Fable 5 precision 不足)
- 快速腳本 / 單一功能 build
- 高頻 API workload(成本考量)
- 前端 React/Next.js 開發
- 需要 zero-retention 的企業
- 不需要超複雜推理的任務
安全機制:Fable 5 的「防禦深度」
Fable 5 的安全架構是它最獨特的設計之一。Anthropic 採用了「defense in depth」策略,主要依賴 safety classifiers(自動系統)來偵測和阻擋有害請求。
三大安全分類器
- Cybersecurity: 偵測軟體漏洞識別和 exploit 生成
- Biology/Chemistry: 偵測生物和化學領域的特定查詢
- Model Distillation: 防止用戶用 Fable 5 訓練 rival 的 frontier model
回退機制
當 classifier 觸發時,請求會「靜默」回退到 Claude Opus 4.8。Anthropic 估算這個回退發生在 <5% 的 session 中。有趣的是,如果你觸發回退,你會被收取 Opus 4.8 的較低費率($5/$25)。
7/1 重新上線的新 classifier
Fable 5 在 6/12 被下架的原因是 Amazon 的報告指出 Fable 5 能識別軟體漏洞並提供 exploit code。Anthropic 的調查發現,Opus 4.8、GPT-5.5 和 Kimi K2.7 也能識別相同的漏洞並產生相同的 exploit。
因此,Anthropic 訓練了一個改進的 safety classifier,能在 >99% 的情況下阻擋報告中描述的特定技術。代價是:新的 classifier 可能增加「false positives」,將 benign 的 coding 和 debugging 請求標記為有害。
總結:Fable 5 值不值得用?
Fable 5 確實是 技術上的重大進步,在 coding、推理、長程任務上有明顯領先。但它不是社群期待的「paradigm shift」——更像是 迭代式升級。
核心矛盾
能力強 vs 價格貴 + 安全回退的可靠性風險
對於一般使用者,Opus 4.8 的性價比更高;對於需要自主 agent 的大型專案,Fable 5 值得測試,但要設定好 budget 和 stop rule。
我的建議
- 如果你是個人開發者: 先用 Opus 4.8 處理日常任務,遇到複雜問題時再切換 Fable 5
- 如果你是團隊 leader: 在 Pro/Max 方案中充分利用到 7/7 的免費額度,測試 Fable 5 在團隊 workflow 中的表現
- 如果你是企業用戶: 評估 30 天資料保留是否為 hard blocker,並考慮混合工作流(Fable 5 planning + GPT-5.5 execution)
- 如果你是安全研究員: 申請 Project Glasswing 取得 Mythos 5 的 unrestricted 版本
最後,用 CodeRabbit 的一句評測做結尾:
“Fable 5 is the kind of model that changes how an agent feels when the task is underspecified.”
這句話準確地描述了 Fable 5 的定位:它不是用來取代所有其他模型的萬能解,而是在「任務不夠明確」的灰色地帶中,展現出超越前代模型的探索能力和自主性。
這正是它最迷人的地方,也是它最需要被「正確使用」的原因。
參考資料:CodeRabbit、Simon Willison’s Blog、Lenny’s Newsletter、Endor Labs、Vellum、DataCamp、MindStudio、Hacker News、Reddit r/ClaudeAI、Reddit r/singularity、Anthropic 官方公告