Wan2.2 Animate 本地部署：用開源模型做 AI 動畫，比 Runway 省多少錢？

前言

前陣子在社群上瘋傳的「AI 角色替換動畫」，你應該也看過了——一張靜態照片配上參考影片，就能讓照片裡的角色做出跟原片一模一樣的动作。效果驚人到讓人懷疑人生。

這項技術背後的主力，就是阿里巴巴旗下通義千問團隊開發的 Wan2.2 Animate。跟之前只能做「圖轉影片」或「文轉影片」的模型不同，Wan2.2 Animate 專攻「角色動畫」與「角色替換」兩個場景，而且完全開源、Apache 2.0 授權、本地就能跑。

這就引出一個很實際的問題：如果你是個經常需要產出 AI 動畫內容的創作者或團隊，「自己架 GPU 跑 Wan2.2」跟「訂閱 Runway Gen-3 / Gen-4」，到底哪個更划算？

這篇文章就來好好算一筆帳。

Wan2.2 Animate 是什麼？技術亮點一次看

Wan2.2 是 Wan 系列視頻生成模型的第二次重大升級，2025 年 7 月正式發布。它在架構上從 Dense Transformer 升級為 Mixture-of-Experts (MoE) 架構，這是它最核心的技術突破。

MoE 架構：一次推理，兩個專家

簡單來說，Wan2.2 的 14B 模型總共有 270 億個參數，但每一步推理只激活其中 140 億個參數。它的運作方式很聰明：

高噪音專家（High-Noise Expert）：負責影片初始佈局，決定整體構圖和運動方向
低噪音專家（Low-Noise Expert）：負責後期細節精煉，讓畫面更清晰、動作更流暢

這個設計讓 Wan2.2 在不增加推理成本的前提下，大幅提升了處理複雜運動、美學控制和語義理解的能力。官方數據顯示，相比 Wan2.1，Wan2.2 的訓練數據增加了 65.6% 的圖片和 83.2% 的影片。

模型家族一覽

Wan2.2 不只有一個模型，而是一整個家族，涵蓋不同任務：

模型	任務	特色
T2V-A14B	文字轉影片	MoE 架構，支援 480P/720P
I2V-A14B	圖像轉影片	MoE 架構，支援 480P/720P
TI2V-5B	文/圖轉影片	高壓縮 VAE，RTX 4090 就能跑 720P@24fps
S2V-14B	語音轉影片	音訊驅動，支援姿勢驅動
Animate-14B	角色動畫	動畫模式 + 替換模式

我們今天的主角就是最後這個 Animate-14B，它支援兩種模式：

Animate（動畫模式）：輸入一張圖片 + 一段參考影片，讓圖片中的角色做出跟參考影片相同的動作
Replacement（替換模式）：把影片中的某個角色替換成你指定的角色，保持原來的動作和場景

開源 + Apache 2.0：商業使用零疑慮

跟很多開源但限制重重的模型不同，Wan2.2 採用 Apache 2.0 授權，意味著你可以自由商用，不需要付授權金，也不用擔心法律問題。模型權重放在 Hugging Face 和 ModelScope 上，任何人都可以下載。

本地部署需要什麼硬體？

這是最關鍵的一環。跑開源模型跟用 SaaS 服務最大的差別就是——你要自己準備 GPU。

最低硬體需求

根據官方文件和社區測試，不同解析度和模型變體需要的 GPU VRAM 如下：

模型變體	480P 所需 VRAM	720P 所需 VRAM	最低 GPU
1.3B T2V	8–12 GB	16–20 GB	RTX 4090
14B Animate	40–48 GB（FP8）	65–80 GB	H100 PCIe

這裡有幾個關鍵數字值得注意：

RTX 4090（24 GB）：跑 14B 模型在 720P 下大約需要 28 GB 峰值 VRAM，需要開啟 --offload_model True 和 --convert_model_dtype 參數來減少記憶體使用
RTX 3090（24 GB）：通常不到 40 GB，但需要 offload 和轉換精度的組合
A100（40 GB）：480P/720P 表現優秀，支援 24fps
H100（80 GB）：14B 模型在 720P 下的標準配置，需要 FP8 量化
H200（141 GB）：如果需要生成 10 秒以上影片或追求穩定性，這是最佳選擇

實測參考：消費級 GPU 能跑嗎？

社區有不少用 RTX 4090 跑 Wan2.2 的實測。一位 Reddit 使用者用 RTX 4090 Mobile（16 GB VRAM）+ 64 GB 系統記憶體 成功運行了 Wan2.2，使用的是 Q8 GGUF 量化版本。另一位使用者在 RTX 5060 Ti（16 GB）上搭配 64 GB RAM 也能跑，只是速度會慢一些。

這意味著，如果你的預算有限，消費級 GPU + 量化技術 也是一條可行之路。

部署方式

官方提供了 Python 腳本直接運行，也有 ComfyUI 的整合方案。基本安裝流程很直觀：

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
pip install -r requirements.txt
huggingface-cli download Wan-AI/Wan2.2-Animate-14B --local-dir ./Wan2.2-Animate-14B

然後透過 generate.py 腳本執行推理。如果你用 ComfyUI，只需要裝上 WanVideoWrapper 節點就能直接在視覺化介面中操作。

成本大比拼：本地部署 vs. Runway

好了，重點來了。我們來算算帳。

Runway 的收費結構

Runway 是目前最主流的 AI 影片生成 SaaS 平台，它的 Gen-3 Alpha 和最新的 Gen-4 系列都是市場上的一線產品。以下是它的定價結構：

方案	月費	每月點數	Gen-3 Alpha 可生成
Free	$0	125 點（一次性）	約 12.5 秒
Standard	$12/月	625 點	約 62 秒（1 分鐘）
Pro	$28/月	2,250 點	約 225 秒（3.75 分鐘）
Max	$76/月	9,500 點	約 950 秒（15.8 分鐘）

注意：Gen-3 Alpha 的計價是 10 點 / 秒，Gen-3 Alpha Turbo 是 5 點 / 秒。

換算成每分鐘的成本：

Standard 方案：$12 / 1 分鐘 = $12 / 分鐘
Pro 方案：$28 / 3.75 分鐘 = $7.47 / 分鐘
Max 方案：$76 / 15.8 分鐘 = $4.81 / 分鐘

Wan2.2 本地部署的一次性成本

本地部署的成本主要是 GPU 硬體。我們來看幾個典型方案：

方案	硬體成本	每月電費（預估）	每月折舊
RTX 4090（二手約 $1,200）	$1,200	~$30	~$100
RTX 5090（32 GB，約 $2,000）	$2,000	~$50	~$167
A100 40GB（雲端 $2,500/月租賃）	$0（雲端）	含在月費中	$2,500
H100 80GB（雲端 $3,000/月租賃）	$0（雲端）	含在月費中	$3,000

這裡有個關鍵：本地部署的 GPU 不是只跑 Wan2.2 一個模型。同一張卡可以跑 Stable Diffusion、ComfyUI、各種 LLM，所以折舊成本應該攤提。但為了公平比較，我們先假設 GPU 專跑 Wan2.2。

雲端 GPU 的彈性方案

如果你不想一次投入大筆硬體成本，雲端 GPU 是另一個選擇。以 Spheron 為例：

雲端 GPU	時薪	5 秒 480P 成本	5 秒 720P 成本
H100 SXM5（80 GB）	$2.50	~$0.17–0.21	~$0.42–0.50
H200 SXM（141 GB）	$4.54	~$0.30–0.35	~$0.61–0.76
H100 Spot（60% 折扣）	$1.00	~$0.07–0.08	~$0.17–0.20

注意 Spot 實例可以省 60%，但適合不介意被中斷的批量處理場景。

另一條路：SiliconFlow API

如果你連 GPU 都不想管，SiliconFlow 提供 Wan2.2 的 API 服務：

模型	單次生成成本
Wan2.1-I2V-14B-720P-Turbo	~$0.21 / 影片
Wan2.2-I2V-A14B	~$0.29 / 影片
Wan2.2-T2V-A14B	~$0.29 / 影片

這裡的「影片」指的是約 5 秒的輸出。換算成每分鐘：約 $3.48 / 分鐘。

總算帳：不同使用量下的成本比較

讓我們用三個典型場景來比較：

場景一：業餘創作者，每月生成 5 分鐘 AI 影片

方案	月成本	說明
Runway Standard	$12	剛好在額度內
Wan2.2 雲端（Spheron H100）	~$10–15	看解析度和時長
Wan2.2 API（SiliconFlow）	~$17.4	固定每分鐘 $3.48
Wan2.2 本地（RTX 4090）	~$130	含折舊和電費

→ 結論：低使用量下，Runway Standard 最划算

場景二：內容創作者，每月生成 30 分鐘 AI 影片

方案	月成本	說明
Runway Pro	$28	還剩 26 分鐘額度
Runway Max	$76	額度足夠
Wan2.2 雲端（Spheron H100）	~$60–90	720P 約 $0.42–0.50/秒
Wan2.2 API（SiliconFlow）	~$104.4	固定每分鐘 $3.48
Wan2.2 本地（RTX 4090）	~$130	固定成本

→ 結論：30 分鐘/月時，Runway Pro 仍然最便宜，但差距縮小

場景三：工作室級，每月生成 100 分鐘 AI 影片

方案	月成本	說明
Runway Max	$76	還剩約 84 分鐘額度
Wan2.2 雲端（H100 批量）	~$200–300	可加掛多張 GPU
Wan2.2 API（SiliconFlow）	~$348	固定每分鐘 $3.48
Wan2.2 本地（RTX 4090 x2）	~$260	含折舊和電費

→ 結論：高使用量下，本地部署的規模效益開始顯現

隱形成本：你不能忽略的細節

除了看得見的金錢成本，還有幾個隱形因素：

等待時間：Runway 免費層和標準層有排隊時間，Pro 以上會快一些。本地部署則完全取決於你的 GPU 速度
生成時長限制：Runway 單段影片最長約 10 秒，需要多次生成拼接。Wan2.2 本地版可以生成更長的影片（取決於 VRAM）
角色一致性：Wan2.2 Animate 的看家本領就是角色一致性，這是 Runway 目前較弱的環節
靈活性：本地部署可以調整各種參數（採樣步數、CFG、種子等），Runway 的控制相對有限
無網路限制：本地部署離線也能跑，適合對網路品質不穩定的場景

優化技巧：讓每一塊錢都花得更值

如果你決定用 Wan2.2，這裡有幾個實測有效的優化技巧：

FP8 量化：VRAM 砍半，品質幾乎無損

將模型從 FP16 轉換為 FP8（fp8_e4m3fn） 量化，可以減少 20–40% 的 VRAM 使用，而品質損失幾乎察覺不到。在 ComfyUI 的 WanVideoModelLoader 節點中直接啟用即可。

解析度階梯法：480P 構圖 → 720P 輸出

先以 480P 快速生成確認構圖和動作，滿意後再用 720P 生成最終版本。480P 的生成成本只有 720P 的 1/3 到 1/2。

Spot 實例：批量處理省 60%

如果對時間不敏感（比如批量生成 100 個素材），使用雲端 GPU 的 Spot 實例可以節省約 60% 的成本。但要注意，Spot 實例可能被中斷，不適合需要即時確認的場景。

避免 LoRA：官方建議

官方文件明確建議不要使用基於 Wan2.2 訓練的 LoRA 模型，因為可能導致「意外行為」。目前 LoRA 在 Wan2.2 上的成熟度還不夠高。

總結：該選哪條路？

沒有絕對的答案，只有適合你的方案。這裡給個簡單的決策框架：

使用場景	推薦方案
每月 < 10 分鐘	Runway Standard / Pro
每月 10–50 分鐘	Runway Pro 或 SiliconFlow API
每月 50–200 分鐘	Wan2.2 雲端 GPU（H100）
每月 > 200 分鐘	本地部署 GPU（RTX 4090 x2 或 A100）
重度角色動畫需求	Wan2.2 Animate 本地部署（這是 Runway 做不到的）
預算有限但想試試	Hugging Face Spaces 免費 Demo

最後說一句實話：開源模型的最大價值不只是省錢，而是「自由」。你不需要每月付訂閱費、不怕平台漲價、模型升級了直接下載新版本、甚至可以把模型裝到邊緣裝置上跑。

Runway 當然很好用，但如果你已經在重度使用 AI 影片生成，尤其是需要角色動畫這個場景，Wan2.2 Animate 的本地部署絕對值得你認真考慮。

省下的錢，拿去升級硬體，再省……再升級。這跟 Runway 的「每月點數歸零」邏輯相比，長期來看，開源模型的投資回報率確實更吸引人。

參考資料：Wan2.2 GitHub 、Wan2.2 Animate Demo 、Runway 官方定價、SiliconFlow 模型定價、Spheron GPU 雲端

前言#

Wan2.2 Animate 是什麼？技術亮點一次看#

MoE 架構：一次推理，兩個專家#

模型家族一覽#

開源 + Apache 2.0：商業使用零疑慮#

本地部署需要什麼硬體？#

最低硬體需求#

實測參考：消費級 GPU 能跑嗎？#

部署方式#

成本大比拼：本地部署 vs. Runway#

Runway 的收費結構#

Wan2.2 本地部署的一次性成本#

雲端 GPU 的彈性方案#

另一條路：SiliconFlow API#

總算帳：不同使用量下的成本比較#

隱形成本：你不能忽略的細節#

優化技巧：讓每一塊錢都花得更值#

FP8 量化：VRAM 砍半，品質幾乎無損#

解析度階梯法：480P 構圖 → 720P 輸出#

Spot 實例：批量處理省 60%#

避免 LoRA：官方建議#

總結：該選哪條路？#

前言