前言

如果你是用過 Ollama 的人,一定對它的核心精神印象深刻:「在你的機器上跑模型,沒有 token 限制,沒有月費」

但隨著 Ollama 推出 Cloud 雲端服務,這個信仰開始動搖了。2025 年 9 月,Ollama 正式發布雲端模型預覽版,讓開發者不需要本地 GPU 也能跑大型模型。到 2026 年中,雲端方案已經發展出 Free、Pro、Max 三個等級,定價從 $0 到 $100/月不等。

問題來了:$20/月的 Pro 方案到底能跑多少?官方沒給明確數字,限制到底是什麼?

這篇文章我花了整整一天,爬遍了 Reddit r/ollama 論壇、官方定價頁、技術部落格,收集了超過 20 篇 Reddit 討論與用戶實測反饋,為你整理出一份最完整的 Ollama Cloud 收費與限制報告。

- 廣告 -

方案分級一覽:Free、Pro、Max 差在哪?

Ollama Cloud 目前提供三個方案等級:

項目FreeProMax
月費$0$20/月(年繳 $200)$100/月
同時連線數1 個模型3 個模型10 個模型
使用量倍數基準Free 的 50 倍Free 的 250 倍
私有模型上傳
額外使用量購買
定位輕量實驗日常編碼/工作重度代理/批次處理

官方還提到 Team Plan 正在開發中,預計會提供集中帳單、SSO 登入、MDM 安裝器與優先支援。

雲端 vs 本地的差異

需要特別注意的是,Ollama 的 本地模型(Local Models)永遠沒有使用量限制,雲端方案只針對雲端推理(Cloud Models)收費。你可以混合使用:日常小模型跑本地,大型模型(120B+)走雲端。

使用量怎麼算?GPU 時間計費法

這部分是 Ollama Cloud 最特別也最讓人困惑的設計。

Ollama 不採用固定 token 數或請求次數計費,而是用 GPU 時間(GPU time / compute) 來衡量你的用量。

核心概念

  • 取決於 模型大小 + 請求持續時間
  • 越短的請求、共享快取上下文的請求消耗越少
  • 官方說法:「硬體和模型架構效率提升,你會得到更多用量」

模型使用等級(Usage Level)

Ollama 將所有雲端模型分為四個使用等級,等級越高,消耗使用量的速度越快:

等級說明範例模型
Level 1輕量模型gpt-oss:20b-cloud
Level 2中型模型gpt-oss:120b-cloud
Level 3大型模型qwen3-coder:480b-cloud
Level 4超重型模型deepseek-v4-pro

一個重要發現: 2026 年 4 月起,多位 Pro 用戶回報,小模型(如 Minimax、CoderNext)的消耗速率被大幅拉高,幾乎等於大模型(GLM 5.1)的消耗速度。這意味著 Level 1 和 Level 4 之間的差距縮小了。

限制機制:雙重閥控的「雙重打擊」

這是 Reddit 上網友抱怨最多的部分。

Ollama Cloud 採用 兩層限制機制

  1. Session 限制 — 每 5 小時 重置一次
  2. Weekly 限制 — 每 7 天 重置一次

也就是說你可能一天內被卡兩次:先觸發 session 上限,再觸發 weekly 上限。

官方未公布的具體數字

根據 Reddit 用戶的反饋,我們能整理出一些實測數據:

  • 免費版的標準速率限制約為每 5 小時 135 次請求
  • Pro 版約為免費版的 50-100 倍容量
  • 但這些是「動態」的,不是固定值,且會隨時間調整

一位 Pro 用戶在升級前後的使用量對比:

「升級前:每週使用量 93%、Session 使用量 4%。升級後:每週 1%、Session 0.1%。」

熱門論壇用戶實測反饋(2026 年最新)

以下整理自 Reddit r/ollama 論壇 2026 年 1 月至 6 月的真實用戶討論。

🔴 痛點一:使用量計算突然變嚴格

2026 年 4-5 月的大規模回報:

多名 Pro 用戶發現,使用量消耗速度在短時間內增加了 30-35%。一位用戶這樣描述:

「他們在沒有公告的情況下大幅砍掉了 Pro 方案。之前用 Minimax 或 CoderNext 這種小模型時,限制會慢慢減少;現在 Minimax 的消耗量看起來跟 GLM 5.1 一樣。我認為我們現在大約得到 30-35% 的 token 量。」

另一位用戶補充:

「平常一週都用不完,但最近 consistently 只工作兩天就到 40% 的每週使用量。」

原因推測: Ollama 調整了 compute 計算方式,讓小模型和大模型之間的消耗差距縮小。同時,推理速度提升(這是好事),但代價是同等時間消耗更多配额。

🔴 痛點二:「Server overloaded」問題嚴重

即使你的使用量還沒滿,也可能被擋。這是因為 Ollama Cloud 存在 三重限制疊加

  1. 你的 session 使用量上限
  2. 你的 weekly 使用量上限
  3. 模型伺服器容量(獨立於你的用量之外)

一位 Pro 用戶回報:

「我用 DeepSeek V4 Pro 作為主要 agent,前兩天還好好的,現在幾乎每次任務都會遇到 ‘Server overloaded, please retry shortly’ 或 ‘Rate limit exceeded’。最離譜的是,我的 session 使用量只有 4.7%,weekly 只有 1.5%。」

關鍵洞察: 使用量未滿 ≠ 不會被擋。當熱門模型(特別是 DeepSeek V4 Pro)的伺服器容量被佔滿時,即使你的 quota 還很充裕,也會收到 overloaded 錯誤。

🔴 痛點三:限制不透明(黑盒子體驗)

這是 Pro 用戶最一致的抱怨。一位用戶說:

「我喜歡 Ollama,雲端也真的好用,但每個月花 $20 買一個 ‘vibe-based’ 的限制感覺有點蠢。我無法準確判斷何時會觸發速率限制。」

官方沒有公布任何具體的 token 數或請求數上限,用戶只能看使用量百分比圖表,但無法預判:

  • 下次請求會消耗多少 compute
  • 伺服器是否會 overloaded
  • 使用量計算是否又被悄悄調整了

🔴 痛點四:伺服器負載導致速度波動

多位用戶回報,美國工作時段特別慢,晚上反而快

「我在 US business hours 用 Ollama Cloud 感覺慢到令人發指,但到了晚上就 blazing fast。這跟我的使用量無關,純屬伺服器負載問題。」

有用戶推測,熱門模型(特別是 DeepSeek 系列)吸引了大量流量,導致伺服器供不應求。

🔴 痛點五:官方悄悄調降限制

2026 年 3 月,有用戶發現使用量限制在 24 小時內下降了。到了 5 月,多位用戶回報 Pro 方案被「nerf」:

「我 $100/月用 OpenClaw,過去兩個月從超好用變成完全 unusable。不停收到 liveness errors、timeouts、failures。」

一位用戶甚至回報:「我的每週限制在週中莫名其妙重置了一次。」

🟢 正面評價

當然,也不是全盤否定。正面反饋主要集中在:

  • Pro 版確實比 Free 版慷慨很多,一般編碼/日常使用不太容易觸發限制
  • $20/月換算約等於 $50-70 的 API 用量,對輕度使用者仍具 CP 值
  • 模型選擇比 Claude Code / ChatGPT 多(Kimi、GLM、DeepSeek、Minimax 等)
  • 支援 tool calling、結構化輸出、多模態
  • 與本地 Ollama 完全相容,同一套程式碼在本地和雲端都能跑

一位用戶總結:

「$20/月能拿到相當於 $50-70 的 API 算力。雖然最近限制變嚴格了,但對日常編碼來說還是夠用的。」

🟢 官方客服回應

當被問到 Pro 方案的具體 token 限制時,Ollama 客服這樣回答:

「我們以「使用強度」而非固定 token 上限來設計方案。Free 級適合輕量實驗。Pro 是為日常工作(聊天、文件分析、編碼輔助)設計的。Max 適合更重的使用(編碼代理、批次處理)。這些方案目前不是為持續性生產 API 使用設計的——如果你需要這個,歡迎告訴我們你的具體需求,我們會納入未來方案的考量。」

高用量用戶的建議策略

根據 Reddit 用戶的實測經驗,這裡整理出一些實用建議:

混合架構策略

高用量用戶普遍採用 本地 + 雲端混合架構

模型角色建議用量佔比
本地模型(Qwen3-Coder 等)主要編碼、平行工作50-65%
本地小模型快速修補、小修改10-18%
本地總結模型摘要、diff 解釋6-12%
Ollama Cloud爆發式編碼、複雜重構10-25%

自建 vs 雲端:什麼情況下該選哪個?

根據 Pooya Golchian 的分析:

  • 每天 < 25,000 請求 → 用 Cloud Pro/Max(操作簡單、零前期成本)
  • 每天 > 25,000 請求 → 自建 RTX 4090(攤提成本約 $70/月含電費)
  • 每天 > 40,000 請求 → 自建 Mac Studio M4 Max(攤提成本約 $155/月)
  • 每天 > 100,000 請求 → 自建完勝

經驗法則: 當每日請求量超過 模型參數(十億)× 40 時,自建開始划算。(例如:70B 模型 = 每天 28,000 請求)

實戰避坑指南

  1. 控制上下文窗口大小 — 過大的 context window 會大幅增加 compute 消耗,是限制快速下降的主因之一
  2. 避開熱門模型高峰時段 — DeepSeek V4 Pro 在美國工作時段特別容易 overloaded,建議改用 Kimi K2.6 或 GLM-5 等較不擁擠的模型
  3. 準備備用供應商 — 使用 LiteLLM 等代理工具,當 Ollama Cloud 被擋時自動切換到 OpenRouter 或 OpenAI
  4. 定期重置 API Key — 有用戶回報重置 API Key 解決了不明使用量上升的問題
  5. 保持在 3 個以下同時連線 — Pro 版支援 3 個同時連線,超過容易觸發 session 限制
  6. 不要一次買年繳 — 限制調整頻率不低,先月繳試用一個月再決定是否續訂年繳

使用量監控與追蹤

Ollama 提供了一些基本的監控功能:

  • 設定頁面 可查看使用量圖表(百分比形式)
  • 使用量達到 90% 時會發送 Email 通知(可在設定中調整)
  • API 回應中包含 total_durationprompt_eval_countprompt_eval_duration 等指標

但缺點是:你無法看到具體的 token 數或請求數,只能看到百分比。

總結:Ollama Cloud 適合你嗎?

✅ 適合用 Ollama Cloud 的情況

  • 日常編碼輔助、RAG、文件分析
  • 需要跑 120B+ 大型模型但本地沒有 GPU
  • 輕度到中度使用量(每天數千到數萬 tokens)
  • 想要一個「安裝即用」的雲端方案,不想自己架設

❌ 不適合用 Ollama Cloud 的情況

  • 高流量生產環境(每天 500 萬+ tokens)
  • 需要可預測的速率限制和 SLA
  • 主要使用 DeepSeek V4 Pro 等熱門模型且需要穩定性
  • 對成本敏感且能接受自建伺服器

我的建議

如果你還在猶豫要不要買 Pro:

  1. 先用免費版試一個月,了解自己的使用模式
  2. 買月繳 Pro 試試看,不要一次年繳(限制變更快)
  3. 搭配本地小模型使用,把雲端用在真正需要的地方
  4. 監控使用量圖表,了解你的工作負載會消耗多少 quota
  5. 準備一個備用方案(本地 GPU 或 OpenRouter),避免被擋時卡住

Ollama Cloud 的定位很明確:它不是為持續性生產 API 設計的。但對於日常開發者來說,$20/月能拿到 50 倍於免費版的用量,再加上 diverse 的模型選擇,CP 值依然不錯。只是要做好心理準備——這是一個「動態限制」的服務,今天能跑的,明天可能就不同了。


參考資料:Reddit r/ollama 論壇討論、Ollama 官方定價頁、DevToolHub、Pooya Golchian 部落格、GitHub OpenClaw Issues