前言
2026 年 6 月 30 日,美團低調而重磅地發佈了新一代萬億參數大模型 LongCat-2.0,並同步開源。這不是一個普通的模型更新——它是業界第一個在五萬卡中國算力集群上完成全流程訓練與推理的萬億參數模型,預訓練數據規模超過 30T tokens,原生支援 100 萬 Token 的超長上下文。
更引人注目的是,在正式版開源前,LongCat-2.0 的 Preview 版本已經透過 OpenRouter 平台面向全球開放,並躋身 OpenRouter 全球大模型調用量前三名——在 Hermes、Claude Code 和 OpenClaw 等 Agent 工具的分榜中,分別拿下全球第一、第二和第三的成績。
這篇文章將從架構、訓練、推理、應用四個維度,帶你全面理解 LongCat-2.0 到底強在哪裡,以及它對 AI Agent 開發者意味著什麼。
架構核心:1.6 萬億參數,但只喚醒 480 億
LongCat-2.0 採用的是 MoE(Mixture of Experts,混合專家)架構,總參數達到驚人的 1.6 兆(1.6T),但每個 token 實際激活的參數約為 480 億(48B),動態範圍在 330 億到 560 億之間。
這個設計的精妙之處在於「零計算專家」機制。代碼任務中,token 的複雜度差異極大——定義一個變數名和推導一個遞歸算法,對算力的需求完全不在一個量級。LongCat-2.0 在專家池中增設了「零計算專家」,當簡單 token(標點符號、功能詞等)被路由到該專家時,直接返回輸入,不消耗任何計算資源。
配合 ScMoE(Sparse Mixture of Experts)動態路由,系統透過 PID 控制器自動調節專家偏置,維持平均激活參數在目標範圍內。簡單說:算力被精準地花在刀刃上。
LongCat Sparse Attention(LSA):100 萬 Token 不是口號
傳統 Transformer 的注意力機制計算量是序列長度的平方級($O(n^2)$),上下文一到 100K 就開始「遺忘」前面的內容。LongCat-2.0 自研的 LSA 稀疏注意力機制將計算量降至線性級($O(n)$),核心有三招:
- Streaming-aware Indexing(SI):將碎片化的記憶體存取轉換為可預測的順序讀取,充分發揮 HBM 頻寬。
- Cross-Layer Indexing(CLI):跨層共享索引,將索引成本攤提。
- Hierarchical Indexing(HI):兩階段(粗到細)評分機制,縮小每個 query 的候選空間。
這三招疊起來,讓 LongCat-2.0 在處理 100 萬 Token 的超長上下文時,依然能精準定位和理解關鍵資訊。對 Agent 開發者來說,這意味著你可以把整個專案程式碼、整套 API 文件丟進去,模型不會「斷片」。
N-gram Embedding:1350 億參數的參數效率革命
LongCat-2.0 還引入了 1350 億(135B)的 N-gram Embedding 參數(n=5)。團隊的結論是:「MoE 的稀疏性已經跨過了甜蜜點,再擴充專家帶來的效能增益微乎其微;但同等規模的 N-gram Embedding 帶來的效益遠超標準專家。」
換句話說,把參數用在 N-gram Embedding 上,比繼續堆專家數量更有效率。當然,N-gram 參數被嚴格控制在總參數的 10% 以內,以維持最佳效能。
訓練:五萬卡大陸國產算力的全棧協同
LongCat-2.0 最被低估的成就之一,是在大陸國產算力集群上完成了全流程訓練。從 2023 年千卡起步,三年時間攻克算子適配、通信優化、分散式穩定性等基礎難題,最終在五萬卡集群上完成萬億參數 MoE 模型訓練。
三大難關:穩定性、正確性、效率
萬卡級訓練面臨的挑戰可以歸納為三類:
- 穩定性:透過卡間通信異常處理、彈性擴縮卡和自動故障恢復,將月均日故障率降低 70% 以上。
- 正確性:自研設計確定性算子、Bitwise 一致性驗證和參數檢測,保障訓練結果可靠。
- 效率:透過流水線調度、顯存優化和算子級控核,訓練 MFU(Model FLOPS Utilization)提升 1.5 倍。
最終實現了穩態日吞吐超過 1T tokens/day 的成績。
6D 平行運算
LongCat-2.0 採用了 6D 平行運算策略:標準的 TP(張量平行)、CP(上下文平行)、EP(專家平行)、DP(資料平行)、PP(流水線平行),再加上自研的 EMBP(Embedding 平行)——專門加速 N-gram 運算。
此外,訓練過程中透過計算與通信重疊(如 MoE 通信與並行分支計算重疊),實現了超過 35% 的效能提升。
推理與部署:PD 分離架構
LongCat-2.0 採用 Prefill–Decode(PD)分離部署架構:
- Prefill 節點:使用多節點 Chunked Pipeline Parallelism(CPP)和 Sequence Parallelism(SP)來處理長序列的計算壓力。
- Decode 節點:利用 KV-cache 平行(KVP)切分 KV-cache,並搭配 Expert-Parallel Load Balancing(EPLB)處理專家層級的負載不均。
再加上「Super Kernels」減少 kernel 啟動開銷,以及 L2 cache prefetching 隱藏 I/O 延遲,整體推理效能相當可觀。
效能表現:對標頂級閉源模型
來看看 LongCat-2.0 在關鍵基準測試上的成績:
| 基準測試 | LongCat-2.0 | 對比模型 |
|---|---|---|
| SWE-bench Pro | 59.5 | Gemini 3.1 Pro: 54.2, GPT-5.5: 58.6, Claude Opus 4.6: 57.3 |
| SWE-bench Multilingual | 77.3 | Claude Opus 4.6: 77.8(同水位) |
| IFEval | 90.0 | — |
| GPQA-diamond | 88.9 | — |
| Terminal-Bench 2.1 | 70.8 | — |
| RWSearch | 78.8 | — |
| BrowseComp | 79.9 | — |
SWE-bench Pro 是目前衡量 AI 軟體工程師能力最具參考價值的基準之一,測試模型在真實工程問題上的解決能力。LongCat-2.0 以 59.5 的成績同時領先 Gemini 3.1 Pro、GPT-5.5 和 Claude Opus 4.6,這個成績在代碼生成和自動化編程領域非常有說服力。
MOPD:一個模型,三組專家
LongCat-2.0 採用了 **MOPD(Multi-Expert Post-Training,多專家後訓練)**架構,將專家分為三組:
- Agent Experts:專攻自主任務執行、工具調用和自糾錯。
- Reasoning Experts:深耕 STEM、數學和多跳推理。
- Interaction Experts:優化指令遵循、人機對齊和幻覺抑制。
推理時,門控網路根據任務類型動態調度最擅長的專家群組,而不是簡單地合併參數。得益於此,模型在編程、推理、交互等各個維度都能保持高水準表現。
實戰場景:從自然語言到可運行的產品
美團在發佈時公開了多個真實工作場景的 Demo,這些不是玩具範例,而是能直接解決業務痛點的應用:
AI SQL Agent:業務人員自己查資料
業務人員用自然語言提問,LongCat-2.0 自動完成全鏈路閉環——理解意圖、規劃查詢步驟、將結果轉化為業務洞察。
老代碼重構:讀懂舊架構,一次編譯通過
給 LongCat-2.0 一個舊版外掛程式碼庫和一份新版 SDK 文件,它能自行分析整體架構、梳理核心邏輯,再將整個外掛重構為符合新 API 的實現——保留全部原有功能,修復潛在隱患,編譯一次通過。
從一句話到可運行的產品
描述一個「兒童 AI 遊戲訓練場」的創意,LongCat-2.0 會逐步生成技術選型、頁面架構、遊戲邏輯與視覺細節——從首頁到三個完整可玩的游戏頁面,全部代碼一次產出,開箱即用。
3D 互動演示:一句話,生成一個 3D 世界
透過一句話描述,LongCat-2.0 即可生成完整 Three.js 3D 演示:透明燒瓶、熒光液體、泡沫噴發、液面下降和堆積效果全部可互動呈現。所有代碼封裝在一個 HTML 文件中,打開即用。
AI 小說工廠:從靈感到商業變現
基於 LongCat-2.0 構建的「AI 小說工廠」,將創意寫作升級為自動化內容流水線。用戶輸入靈感後,系統編排多個 Agent,自動完成世界觀建構、並行章節生成、質量評估與回流修訂。並透過長上下文能力保障百萬字級設定一致性。
定價:對開發者友好的開放策略
LongCat-2.0 的 API 定價策略非常具有侵略性:
- 輸入(緩存未命中):2 元 / 百萬 Tokens
- 輸入(緩存命中):0.04 元 / 百萬 Tokens(幾乎免費)
- 輸出:8 元 / 百萬 Tokens
- 資源包:9.9 元可購買 5000 萬 Tokens
對於開發者來說,最吸引人的是緩存命中免費的機制。由於 Agent 任務通常會重複使用相同的系統提示和上下文,這意味著大量請求的輸入成本幾乎可以忽略不計。
此外,透過提交有效反饋,每天最多可獲得 1.2 億 Tokens 的免費額度。
對 AI Agent 開發者的意義
LongCat-2.0 的出現,對 Agent 開發者來說有三個關鍵意義:
第一,它驗證了大陸國產算力訓練萬億參數 MoE 模型的可行性。 在 NVIDIA H100 壟斷的時代,LongCat-2.0 證明大陸國產算力也能「訓得出、跑得動」萬億參數模型,這對供應鏈風險管理至關重要。
第二,它在 Agent 場景的表現已經超越多數頂級閉源模型。 SWE-bench Pro 59.5 的成績不只是數字遊戲——它代表在真實的程式碼理解和生成任務中,LongCat-2.0 已經具備與 GPT-5.5、Claude Opus 4.6 競爭的能力。
第三,100 萬 Token 上下文 + 極具競爭力的定價,讓長期 Agent 任務的成本大幅降低。 對於需要處理龐大程式碼庫、長期記憶的 Agent 應用,這個上下文長度是刚需。
結語
LongCat-2.0 不是一個單純的「參數競賽」產物。從 LSA 稀疏注意力、零計算專家、MOPD 多專家融合到 PD 分離部署,每一個架構決策都圍繞著一個核心目標:讓模型在真實的 Agentic Coding 任務中更高效、更穩定地發揮能力。
作為一個同時開源、提供低價 API、且在 Agent 場景表現優異的萬億參數模型,LongCat-2.0 為開發者提供了一個極具性價比的選擇。如果你正在構建需要長上下文、複雜工具調用和深度代碼理解的 Agent 應用,值得花時間試一試。
立即體驗:https://longcat.chat API 平台:https://longcat.chat/platform/product