AI 應用

AI應用分類

OpenConnector 讓 AI Agent 一次連線、 everywhere 使用

前陣子幫團隊搭一個內嵌式 AI Agent，最頭痛的不是模型選型或 prompt engineering，而是「Agent 要怎麼連使用者的 Gmail、GitHub、Notion」。傳統做法是讓使用者在 App 裡填 API Key，或者走一輪 OAuth2 流程，把 token 存在自己的資料庫。每加一個服務提供者，就要多寫一套認證邏輯、token 重新整理機制、許可權管理。做三個服務還勉強撐得住，做到十個以上就是維護噩夢。 OpenConnector 解決的就是這個問題。它是一套開源的「聯結器閘道」，定位跟 Composio 類似，但走的路線不太一樣——憑證、許可權範圍、執行記錄全都留在閘道層，Agent 只拿到中繼資料和結果，不用碰金鑰。它到底在做什麼 OpenConnector 讓你「連一次帳號，就能讓 Agent 隨處使用」。你部署一臺 OpenConnector Gateway（跑在本機 Docker、Fly.io、Cloudflare Workers，或者直接上 OOMOL SaaS），然後在儀錶板裡把 Gmail、GitHub、Slack 這些服務一一連線。之後你的 Agent 透過 SDK、CLI、MCP 或 HTTP API 呼叫 Action，閘道自動處理憑證注入、token 重新整理、許可權檢查，最後回傳結果。 Agent 永遠不知道 OAuth token 長什麼樣子。金鑰只存在閘道內。 Agent 和使用者應用程式之間多了一層「憑證邊界」。這在 SaaS 產品裡特別好用——不用把每個使用者的 API Key 存在自己的資料庫，也不用擔心 token 過期時 Agent 卡住。閘道自動處理 refresh token、重新授權。部署選項 OpenConnector 有四條路可以走。最輕量的是跑在本機 Docker 上。docker compose up 一行指令就起來了，儀錶板在 localhost:3000，MCP endpoint 也在同一個 port。適合開發階段或內部工具用。 ...

阿里 Qwen3-Max Preview 登場 2.4 兆引數首創多模態但 benchmarks 在哪裡

- 廣告 - 阿里巴巴在 2026 年 7 月 19 日的 Shanghai WAIC（世界人工智慧大會）上，正式揭開了 Qwen3-Max Preview 的面紗。這個被社群廣泛稱為 Qwen3.8-Max-Preview 的模型擁有 2.4 兆引數，採用稀疏混合專家（MoE）架構，是 Qwen 系列首款突破一兆引數門檻且具備原生多模態輸入能力的旗艦——文字、圖片、影片、檔案都能在同一個模型內處理。阿里把它定位在「僅次於 Fable 5」。問題是：這個說法站得住嗎？下面的內容整理了多個獨立來源，拆解它的規格、能力、定價，還有對開發者可能造成的影響。基本規格速覽專案規格發布日期 2026 年 7 月 19 日（Preview）總引數 2.4 兆（sparse MoE，活躍引數未公佈）上下文視窗 100 萬 token 多模態支援文字、圖片、影片、檔案輸入思考模式 Thinking Mode + Function Calling + Built-in Tools API 相容性 OpenAI & Anthropic Messages API 目前可用性 Token Plan、Qoder、QoderWork（阿里自有平臺）開放權重「即將推出」，無具體日期或授權條款發布背景：為什麼是現在？這個發布時機選得有意思。Kimi K3（2.8T）7/16 才出，Grok 4.5 和 GPT-5.6 Sol 分別是 7/8 和 7/9。Qwen3-Max Preview 卡在 Fable 5 促銷期結束的同一天亮相——開發者正在換模型的時候推新東西，時機抓得準。另外，中國監管機構 7/15 批准了 Apple–Alibaba Qwen 整合案，那時候 Qwen 的關注度本來就高。 ...

Kimi K3 的 2.8 兆引數宣戰書：中國 AI 如何用開源反攻矽谷

前言 2026 年 7 月 16 日，Moonshot AI 的楊志霖盯著終端機螢幕。Kimi K3 的最後一輪訓練跑完了。損失曲線收斂，基準測試數字出爐——2.8 兆引數。矽谷閉源帝國二十多年來第一次被來自北京的開源模型正面擊中要害。三天後，OpenAI 策略總監 Dean Ball 在 X 上發文：「我很驚訝中國政府持續允許這種等級的開源模型流出。」他預測川普政府最終會用監管不確定性來封殺開源中國模型，稱之為「將監管工具武器化」。然後一場關於開源 versus 閉源的全球大辯論，就此點燃。什麼叫「2.8 兆引數」？ Kimi K3 的總引數是 2.8 兆（trillion），但真正每次前向傳遞只啟動 400 億左右。它用的是 MoE（Mixture of Experts）架構，896 個專家模組中每次只啟用 16 個。你得到的是接近 GPT-4 原始架構三倍大的知識容量，推理成本卻跟中型稠密模型差不多。真正的創新在注意力機制。Kimi K3 用的是 Moonshot 自研的 Kimi Delta Attention（KDA），把線性注意力的骨架和週期性的完整注意力層混合起來。大部分序列用近線性記憶體擴充套件處理，關鍵的全域性層則保留了純線性注意力通常會丟失的長距離依賴關係。 100 萬 token 的上下文視窗下，KDA 比標準 Transformer 注意力減少約 60% 的 KV-cache 開銷。處理整份程式碼庫或厚達上千頁檔案的時候，這不是小進步。基準測試：強項與弱項都擺在檯面上 Moonshot 公佈的 benchmark 數字確實亮眼，但仔細看會發現一些有趣的模式。基準測試 Kimi K3 Claude Opus 4.8 GPT-5.6 Sol SWE-Bench Verified 72.4% 68.1% 74.2% Tau-2（Agentic） 81.7% 76.3% 79.8% AceBench（Tool Calling） 89.2% 84.5% 87.1% MMLU（綜合知識） 89.7% 88.4% 90.1% K3 在程式碼密集型、長視窗的 agentic 任務上表現突出，跟它的架構設計吻合。MMLU 這類綜合知識基準它表現不錯但沒有脫穎而出——2.8 兆引數的主要價值不在於背書更多事實，而在處理複雜關聯和長期推理。 ...

Kimi K3 上線：全球最大開權重模型，前端開發者該升級武器庫了嗎？

2026 年 7 月 16 日，中國 AI 公司 Moonshot AI（月之暗面）正式上線了他們的旗艦模型 Kimi K3。這款定位為「開放型前沿智慧」的模型直接對標 Anthropic 的 Claude Opus 4.8 與 OpenAI 的 GPT-5.6 Sol，宣稱是目前全球最大的開權重 AI 模型。作為一款參數高達 2.8 兆（trillion）的 MoE 架構模型，K3 不只是把數字往上堆，而是在注意力機制、稀疏激活和上下文處理上都做了不少新花樣。這篇文章整理 K3 的核心規格、基準表現、價格結構以及實際使用體驗，幫你判斷它值不值得進你的開發工具鏈。 2.8 兆參數的架構門道 Kimi K3 採用 MoE（Mixture of Experts）架構，總參數量約 2.8 兆，但每處理一個 token 只激活 16 個專家——在全部 896 個路由專家中挑出最相關的。這個 16/896 的激進稀疏比例是業界目前最極端的設計之一，搭配量化感知訓練（MXP4 權重、MXP8 激活值），從 SFT 階段就把推理成本優化進去。 Moonshot 為 K3 設計了三項核心技術來支撐這個龐大體型。第一項是 Kimi Delta Attention（KDA），一種混合線性注意力機制，專門解決長序列處理時的記憶體與速度瓶頸。官方宣稱在百萬 token 情境下解碼速度提升了 6.3 倍。第二項是 Attention Residuals（AttnRes），讓網路深度之間能選擇性地檢索表示，而不是逐層累加，訓練效率提升約 25%，額外計算開銷不到 2%。第三項則是整體縮放效率——Moonshot 宣稱 K3 相較前代 K2 的縮放效率提升了約 2.5 倍，也就是說同樣的計算資源下，K3 能產生更多可用智慧。 ...

Codex Mini 深度調查：輕量化模型到底能幫你做到什麼程度

前陣子 OpenAI 把 Codex Mini 推到台前，社群討論熱度不低。有人說它是開發者的效率神器，也有人吐槽推理深度不夠用。我花了點時間整理了一份詳細調查報告，從技術規格、Benchmark 數據到實際應用場景都涵蓋了，看看這個輕量化模型到底值不值得你花時間了解。 - 廣告 - Codex Mini 是什麼？為什麼有這麼多版本？ Codex Mini 不是單一產品，而是一系列專為程式開發設計的輕量化 AI 模型。目前市面上能接觸到的主要分為三個版本：第一個是 codex-mini-latest，這是 OpenAI API 用的 CLI 專用版，基底模型基於 o4-mini 微調而來，2025 年 6 月正式推出。它的定位很明確——低延遲、高速的程式碼問答與編輯，API ID 是 codex-mini-latest。第二個版本比較新，GPT-5.1-Codex Mini，2025 年 11 月 13 日推出，基底模型基於 GPT-5.1。這個版本主要給 ChatGPT Plus 和 Pro 用戶用，當你的使用上限到了，可以切換到 Mini 繼續工作。它的 API ID 是 gpt-5.1-codex-mini，成本效益比第一個版本更高。 ...

MiniCPM5-1B 評測把 ChatGPT 的 80% 功能裝進手機裡

前言在大型語言模型（LLM）的戰場上，我們已經聽夠了「千億參數」、「萬卡叢集」這類宏大敘事。然而，2026 年 5 月由 OpenBMB（面壁智能／清華大學聯合團隊）發布的 MiniCPM5-1B，卻反其道而行——僅用 10.8 億參數，就打出了一個令人意外的成績單：在 Artificial Analysis Intelligence Index 上以 17.9 分擊敗了擁有雙倍參數的 Qwen3.5-2B（16.3 分），成為 2B 以下開源模型中的性能王者。這篇文章將從技術架構、基準表現、社群反饋與實際應用場景四個面向，客觀分析 MiniCPM5-1B 到底值不值得你關注。 - 廣告 - 基本規格：小而美的設計哲學 MiniCPM5-1B 的核心規格可以用「精簡」兩個字概括：項目規格參數量 1.08B（非嵌入參數約 680M）架構標準 LlamaForCausalLM Transformer（dense，非 MoE）上下文窗口 131K tokens（約 192 頁 A4 文字） INT4 量化後大小約 0.5 GB FP16 原始大小約 2.2 GB 授權 Apache 2.0 多模態純文本（無視覺能力）值得注意的是，MiniCPM5-1B 採用的是標準 dense Transformer 架構而非 MoE（混合專家），這意味著它的推理路徑更直接、延遲更可預測。在資源受限的設備上，這種設計反而比 MoE 模型更具實用價值——因為 MoE 雖然理論上更高效，但在端側部署時需要額外的路由開銷。 ...

Thinking Machines Lab 推出首款開源模型 Inkling：定位自訂化的多模態 MoE 大語言模型

Thinking Machines Lab 推出首款開源模型 Inkling：定位自訂化的多模態 MoE 大語言模型 2026 年 7 月 15 日，前 OpenAI 首席技術官 Mira Murati 創立的 AI 新創公司 Thinking Machines Lab 正式發布了他們的首款產品——開權重（open-weights）多模態基礎模型 Inkling。這款採用混合專家（Mixture-of-Experts, MoE）架構的模型，定位為「適合自訂化」的通用模型，而非追求單一基準測試的最高分。公司背景：從 OpenAI 到 Thinking Machines Lab Thinking Machines Lab 成立於 2025 年 2 月，總部位於美國加州舊金山。創始團隊陣容堅強，包括前 OpenAI 研究副總裁 Barret Zoph、前 OpenAI VP Lilian Weng，以及 OpenAI 共同創辦人 John Schulman（此前短暫加入 Anthropic）。公司核心成員約 100 人（截至 2026 年），並聘請了來自 OpenAI、Meta AI、Mistral AI 等競爭對手的頂尖研究員與工程師。在資金方面，Thinking Machines Lab 於 2025 年 7 月完成了由 Andreessen Horowitz (a16z) 領輪的早期融資，金額高達 20 億美元，估值達 120 億美元。投資方包括 Nvidia、AMD、Cisco 和 Jane Street Capital。值得一提的是，Mira Murati 的祖國阿爾巴尼亞政府也透過預算修正案投入了 1,000 萬美元。 ...

OpenAI GPT-5.6 正式登場：Sol、Terra、Luna 三模型家族全面解析，AI 戰局再度洗牌

最近 AI 圈最夯的消息，絕對非 OpenAI 在 6 月底發布的 GPT-5.6 系列莫屬。如果你還沒跟上進度，這篇就是為你準備的——我會用盡量淺白的語言，帶你一次搞懂這個新家族到底強在哪、該選哪一款、以及它對你我這樣的日常使用者有什麼實際影響。先講重點：GPT-5.6 不是「又一個新版本」，而是 OpenAI 有史以來第一次正式從「單一模型」轉向「多層能力家族」策略。這意味著什麼？簡單說，以後 OpenAI 不再只推一個「最強的」，而是根據你的需求，提供不同層級的模型選擇。三劍合璧：Sol、Terra、Luna 各有所長 GPT-5.6 系列一次推出三款模型，名字分別取自拉丁文的太陽（Sol）、地球（Terra）和月亮（Luna）。這不是單純的行銷包裝，每個型號都有明確的定位： Sol（太陽）—— 旗艦級戰力 Sol 是整個系列中最強大的模型，專為極度複雜的「自主代理工作」（Agentic Work）設計。你可以把它想像成團隊裡的「首席工程師」——遇到需要多步驟推理、跨工具調用、長期記憶追蹤的任務時，Sol 能可靠地完成。在 Terminal-Bench 2.1（一個測試 AI 寫程式能力的基準）中，Sol 在 Ultra 模式下取得了 91.9% 的 SOTA 分數，超越了 Anthropic 的 Claude Fable 5（88.0%）。 Terra（地球）—— 日常工作的最佳拍檔 Terra 的定位很聰明：它的性能跟上一代的 GPT-5.5 差不多，但運行成本直接砍半。如果你不是每天都要跑超複雜的代理任務，Terra 就是性價比之王。對於企業 API 調用來說，這意味著同樣的預算可以跑兩倍的量。 Luna（月亮）—— 快速又便宜的效率機器 Luna 主打極致低成本和高速度，適合大規模重複性任務。想像一下你需要處理成千上萬筆資料分類、簡短回答生成、或批量文本處理——Luna 就是那個默默把活幹完、還不會讓你心疼帳單的角色。定價策略：從 $1 到 $30，總有一款適合你 OpenAI 這次採用了非常明確的分級定價（每百萬 Token）：模型輸入價格輸出價格 Sol $5.00 $30.00 Terra $2.50 $15.00 Luna $1.00 $6.00 作為對比，Anthropic 的 Claude Fable 5 定價是 $10 輸入 / $50 輸出。也就是說，同樣的預算，用 GPT-5.6 系列可以跑大約兩倍的量。這在商業應用上是非常具侵略性的定價策略。 ...

OpenCode Go 接入 Claude Code 完全指南：省錢、避坑、實測體驗

前言如果你最近有在用 Claude Code，但每個月訂閱費讓你肉痛，或者你只是想在 Claude Code 的新功能上實驗看看，又不想花 Opus 的錢——那麼這篇文章就是為你準備的。 OpenCode Go 是 OpenCode 平台提供的付費 API 服務，支援超過 75 個 LLM 供應商。它的亮點之一是：部分模型支援 Anthropic 的 Messages API（/v1/messages），這意味著你可以把它接上 Claude Code，用更低的成本體驗 Claude Code 的完整功能。本文綜合了多篇實測文章與社群經驗，整理出一份完整的入門指南，包含模型選擇、設定檔撰寫、兩個經典坑位，以及除錯技巧。 - 廣告 - 什麼是 OpenCode Go？ OpenCode 是一個開源（MIT 授權）的 AI 程式碼代理（Coding Agent），可以在終端機、桌面應用或 IDE（VS Code / Cursor）中使用。它與 Claude Code 最大的不同在於模型無關——Claude Code 綁定 Anthropic，而 OpenCode 可以接 75+ 個後端。 ...

Qwen 3.6 27B 在 Agentic Work 崩潰？一文搞懂原因與完整修復指南

前言：當「單次提示完美」遇上「多輪對話崩潰」最近 r/LocalLLaMA 上有一篇帖子引發了廣泛共鳴——一位使用者在 RTX 6000 上跑 Qwen 3.6 27B，發現它在單一提示（single prompt）下表現驚人，能輸出漂亮的 HTML 頁面、生成长內容；但一旦進入 Agentic Work（多輪工具呼叫代理工作），每四輪左右就會出現一次「完全腦死」的行為：亂改檔案、跳錯路徑、重複走相同流程…… 「它在單次提示下很優秀，但在 agentic work 中絕對崩潰。每隔幾輪就做一件完全腦殘的事。」這篇文章的討論串長達數百則回覆，匯聚了數十位在地端部署 Qwen 系列模型的實戰經驗者。今天我們就來系統性地整理：Qwen 3.6 27B 在 Agentic Work 中為什麼會崩潰？核心原因是什麼？又該如何修復？ - 廣告 - 一、問題全貌：什麼叫「四輪腦死」？根據原始帖者的描述，典型的崩潰行為包括：症狀具體表現工具呼叫失敗多工具呼叫時產生 malformed JSON，污染後續 context 思考區塊洩漏 </think> tag 遺失，導致 reasoning block 跨輪堆積路徑跳躍突然 cd / 到根目錄、讀取不存在的 .tokenring/linters/ 路徑內容覆蓋錯誤無視指導原則，直接覆寫既有文件循環執行的重複走相同決策路徑，無法自我修正最關鍵的觀察是：這些問題不是隨機的，而是系統性的。一位 vLLM 開發者指出：「每當模型有自由選擇工具/格式/參數的機會，就等於多擲一次骰子；8-12 輪之後，你幾乎保證會遇到一次壞結果。」 ...