前言
如果你是用過 Ollama 的人,一定對它的核心精神印象深刻:「在你的機器上跑模型,沒有 token 限制,沒有月費」。
但隨著 Ollama 推出 Cloud 雲端服務,這個信仰開始動搖了。2025 年 9 月,Ollama 正式發布雲端模型預覽版,讓開發者不需要本地 GPU 也能跑大型模型。到 2026 年中,雲端方案已經發展出 Free、Pro、Max 三個等級,定價從 $0 到 $100/月不等。
問題來了:$20/月的 Pro 方案到底能跑多少?官方沒給明確數字,限制到底是什麼?
這篇文章我花了整整一天,爬遍了 Reddit r/ollama 論壇、官方定價頁、技術部落格,收集了超過 20 篇 Reddit 討論與用戶實測反饋,為你整理出一份最完整的 Ollama Cloud 收費與限制報告。
方案分級一覽:Free、Pro、Max 差在哪?
Ollama Cloud 目前提供三個方案等級:
| 項目 | Free | Pro | Max |
|---|---|---|---|
| 月費 | $0 | $20/月(年繳 $200) | $100/月 |
| 同時連線數 | 1 個模型 | 3 個模型 | 10 個模型 |
| 使用量倍數 | 基準 | Free 的 50 倍 | Free 的 250 倍 |
| 私有模型上傳 | ❌ | ✅ | ✅ |
| 額外使用量購買 | ❌ | ✅ | ✅ |
| 定位 | 輕量實驗 | 日常編碼/工作 | 重度代理/批次處理 |
官方還提到 Team Plan 正在開發中,預計會提供集中帳單、SSO 登入、MDM 安裝器與優先支援。
雲端 vs 本地的差異
需要特別注意的是,Ollama 的 本地模型(Local Models)永遠沒有使用量限制,雲端方案只針對雲端推理(Cloud Models)收費。你可以混合使用:日常小模型跑本地,大型模型(120B+)走雲端。
使用量怎麼算?GPU 時間計費法
這部分是 Ollama Cloud 最特別也最讓人困惑的設計。
Ollama 不採用固定 token 數或請求次數計費,而是用 GPU 時間(GPU time / compute) 來衡量你的用量。
核心概念
- 取決於 模型大小 + 請求持續時間
- 越短的請求、共享快取上下文的請求消耗越少
- 官方說法:「硬體和模型架構效率提升,你會得到更多用量」
模型使用等級(Usage Level)
Ollama 將所有雲端模型分為四個使用等級,等級越高,消耗使用量的速度越快:
| 等級 | 說明 | 範例模型 |
|---|---|---|
| Level 1 | 輕量模型 | gpt-oss:20b-cloud |
| Level 2 | 中型模型 | gpt-oss:120b-cloud |
| Level 3 | 大型模型 | qwen3-coder:480b-cloud |
| Level 4 | 超重型模型 | deepseek-v4-pro |
一個重要發現: 2026 年 4 月起,多位 Pro 用戶回報,小模型(如 Minimax、CoderNext)的消耗速率被大幅拉高,幾乎等於大模型(GLM 5.1)的消耗速度。這意味著 Level 1 和 Level 4 之間的差距縮小了。
限制機制:雙重閥控的「雙重打擊」
這是 Reddit 上網友抱怨最多的部分。
Ollama Cloud 採用 兩層限制機制:
- Session 限制 — 每 5 小時 重置一次
- Weekly 限制 — 每 7 天 重置一次
也就是說你可能一天內被卡兩次:先觸發 session 上限,再觸發 weekly 上限。
官方未公布的具體數字
根據 Reddit 用戶的反饋,我們能整理出一些實測數據:
- 免費版的標準速率限制約為每 5 小時 135 次請求
- Pro 版約為免費版的 50-100 倍容量
- 但這些是「動態」的,不是固定值,且會隨時間調整
一位 Pro 用戶在升級前後的使用量對比:
「升級前:每週使用量 93%、Session 使用量 4%。升級後:每週 1%、Session 0.1%。」
熱門論壇用戶實測反饋(2026 年最新)
以下整理自 Reddit r/ollama 論壇 2026 年 1 月至 6 月的真實用戶討論。
🔴 痛點一:使用量計算突然變嚴格
2026 年 4-5 月的大規模回報:
多名 Pro 用戶發現,使用量消耗速度在短時間內增加了 30-35%。一位用戶這樣描述:
「他們在沒有公告的情況下大幅砍掉了 Pro 方案。之前用 Minimax 或 CoderNext 這種小模型時,限制會慢慢減少;現在 Minimax 的消耗量看起來跟 GLM 5.1 一樣。我認為我們現在大約得到 30-35% 的 token 量。」
另一位用戶補充:
「平常一週都用不完,但最近 consistently 只工作兩天就到 40% 的每週使用量。」
原因推測: Ollama 調整了 compute 計算方式,讓小模型和大模型之間的消耗差距縮小。同時,推理速度提升(這是好事),但代價是同等時間消耗更多配额。
🔴 痛點二:「Server overloaded」問題嚴重
即使你的使用量還沒滿,也可能被擋。這是因為 Ollama Cloud 存在 三重限制疊加:
- 你的 session 使用量上限
- 你的 weekly 使用量上限
- 模型伺服器容量(獨立於你的用量之外)
一位 Pro 用戶回報:
「我用 DeepSeek V4 Pro 作為主要 agent,前兩天還好好的,現在幾乎每次任務都會遇到 ‘Server overloaded, please retry shortly’ 或 ‘Rate limit exceeded’。最離譜的是,我的 session 使用量只有 4.7%,weekly 只有 1.5%。」
關鍵洞察: 使用量未滿 ≠ 不會被擋。當熱門模型(特別是 DeepSeek V4 Pro)的伺服器容量被佔滿時,即使你的 quota 還很充裕,也會收到 overloaded 錯誤。
🔴 痛點三:限制不透明(黑盒子體驗)
這是 Pro 用戶最一致的抱怨。一位用戶說:
「我喜歡 Ollama,雲端也真的好用,但每個月花 $20 買一個 ‘vibe-based’ 的限制感覺有點蠢。我無法準確判斷何時會觸發速率限制。」
官方沒有公布任何具體的 token 數或請求數上限,用戶只能看使用量百分比圖表,但無法預判:
- 下次請求會消耗多少 compute
- 伺服器是否會 overloaded
- 使用量計算是否又被悄悄調整了
🔴 痛點四:伺服器負載導致速度波動
多位用戶回報,美國工作時段特別慢,晚上反而快:
「我在 US business hours 用 Ollama Cloud 感覺慢到令人發指,但到了晚上就 blazing fast。這跟我的使用量無關,純屬伺服器負載問題。」
有用戶推測,熱門模型(特別是 DeepSeek 系列)吸引了大量流量,導致伺服器供不應求。
🔴 痛點五:官方悄悄調降限制
2026 年 3 月,有用戶發現使用量限制在 24 小時內下降了。到了 5 月,多位用戶回報 Pro 方案被「nerf」:
「我 $100/月用 OpenClaw,過去兩個月從超好用變成完全 unusable。不停收到 liveness errors、timeouts、failures。」
一位用戶甚至回報:「我的每週限制在週中莫名其妙重置了一次。」
🟢 正面評價
當然,也不是全盤否定。正面反饋主要集中在:
- Pro 版確實比 Free 版慷慨很多,一般編碼/日常使用不太容易觸發限制
- $20/月換算約等於 $50-70 的 API 用量,對輕度使用者仍具 CP 值
- 模型選擇比 Claude Code / ChatGPT 多(Kimi、GLM、DeepSeek、Minimax 等)
- 支援 tool calling、結構化輸出、多模態
- 與本地 Ollama 完全相容,同一套程式碼在本地和雲端都能跑
一位用戶總結:
「$20/月能拿到相當於 $50-70 的 API 算力。雖然最近限制變嚴格了,但對日常編碼來說還是夠用的。」
🟢 官方客服回應
當被問到 Pro 方案的具體 token 限制時,Ollama 客服這樣回答:
「我們以「使用強度」而非固定 token 上限來設計方案。Free 級適合輕量實驗。Pro 是為日常工作(聊天、文件分析、編碼輔助)設計的。Max 適合更重的使用(編碼代理、批次處理)。這些方案目前不是為持續性生產 API 使用設計的——如果你需要這個,歡迎告訴我們你的具體需求,我們會納入未來方案的考量。」
高用量用戶的建議策略
根據 Reddit 用戶的實測經驗,這裡整理出一些實用建議:
混合架構策略
高用量用戶普遍採用 本地 + 雲端混合架構:
| 模型 | 角色 | 建議用量佔比 |
|---|---|---|
| 本地模型(Qwen3-Coder 等) | 主要編碼、平行工作 | 50-65% |
| 本地小模型 | 快速修補、小修改 | 10-18% |
| 本地總結模型 | 摘要、diff 解釋 | 6-12% |
| Ollama Cloud | 爆發式編碼、複雜重構 | 10-25% |
自建 vs 雲端:什麼情況下該選哪個?
根據 Pooya Golchian 的分析:
- 每天 < 25,000 請求 → 用 Cloud Pro/Max(操作簡單、零前期成本)
- 每天 > 25,000 請求 → 自建 RTX 4090(攤提成本約 $70/月含電費)
- 每天 > 40,000 請求 → 自建 Mac Studio M4 Max(攤提成本約 $155/月)
- 每天 > 100,000 請求 → 自建完勝
經驗法則: 當每日請求量超過 模型參數(十億)× 40 時,自建開始划算。(例如:70B 模型 = 每天 28,000 請求)
實戰避坑指南
- 控制上下文窗口大小 — 過大的 context window 會大幅增加 compute 消耗,是限制快速下降的主因之一
- 避開熱門模型高峰時段 — DeepSeek V4 Pro 在美國工作時段特別容易 overloaded,建議改用 Kimi K2.6 或 GLM-5 等較不擁擠的模型
- 準備備用供應商 — 使用 LiteLLM 等代理工具,當 Ollama Cloud 被擋時自動切換到 OpenRouter 或 OpenAI
- 定期重置 API Key — 有用戶回報重置 API Key 解決了不明使用量上升的問題
- 保持在 3 個以下同時連線 — Pro 版支援 3 個同時連線,超過容易觸發 session 限制
- 不要一次買年繳 — 限制調整頻率不低,先月繳試用一個月再決定是否續訂年繳
使用量監控與追蹤
Ollama 提供了一些基本的監控功能:
- 在 設定頁面 可查看使用量圖表(百分比形式)
- 使用量達到 90% 時會發送 Email 通知(可在設定中調整)
- API 回應中包含
total_duration、prompt_eval_count、prompt_eval_duration等指標
但缺點是:你無法看到具體的 token 數或請求數,只能看到百分比。
總結:Ollama Cloud 適合你嗎?
✅ 適合用 Ollama Cloud 的情況
- 日常編碼輔助、RAG、文件分析
- 需要跑 120B+ 大型模型但本地沒有 GPU
- 輕度到中度使用量(每天數千到數萬 tokens)
- 想要一個「安裝即用」的雲端方案,不想自己架設
❌ 不適合用 Ollama Cloud 的情況
- 高流量生產環境(每天 500 萬+ tokens)
- 需要可預測的速率限制和 SLA
- 主要使用 DeepSeek V4 Pro 等熱門模型且需要穩定性
- 對成本敏感且能接受自建伺服器
我的建議
如果你還在猶豫要不要買 Pro:
- 先用免費版試一個月,了解自己的使用模式
- 買月繳 Pro 試試看,不要一次年繳(限制變更快)
- 搭配本地小模型使用,把雲端用在真正需要的地方
- 監控使用量圖表,了解你的工作負載會消耗多少 quota
- 準備一個備用方案(本地 GPU 或 OpenRouter),避免被擋時卡住
Ollama Cloud 的定位很明確:它不是為持續性生產 API 設計的。但對於日常開發者來說,$20/月能拿到 50 倍於免費版的用量,再加上 diverse 的模型選擇,CP 值依然不錯。只是要做好心理準備——這是一個「動態限制」的服務,今天能跑的,明天可能就不同了。
參考資料:Reddit r/ollama 論壇討論、Ollama 官方定價頁、DevToolHub、Pooya Golchian 部落格、GitHub OpenClaw Issues