前言

前陣子在社群上瘋傳的「AI 角色替換動畫」,你應該也看過了——一張靜態照片配上參考影片,就能讓照片裡的角色做出跟原片一模一樣的动作。效果驚人到讓人懷疑人生。

這項技術背後的主力,就是阿里巴巴旗下通義千問團隊開發的 Wan2.2 Animate。跟之前只能做「圖轉影片」或「文轉影片」的模型不同,Wan2.2 Animate 專攻「角色動畫」與「角色替換」兩個場景,而且完全開源、Apache 2.0 授權、本地就能跑

這就引出一個很實際的問題:如果你是個經常需要產出 AI 動畫內容的創作者或團隊,「自己架 GPU 跑 Wan2.2」跟「訂閱 Runway Gen-3 / Gen-4」,到底哪個更划算?

這篇文章就來好好算一筆帳。

- 廣告 -

Wan2.2 Animate 是什麼?技術亮點一次看

Wan2.2 是 Wan 系列視頻生成模型的第二次重大升級,2025 年 7 月正式發布。它在架構上從 Dense Transformer 升級為 Mixture-of-Experts (MoE) 架構,這是它最核心的技術突破。

MoE 架構:一次推理,兩個專家

簡單來說,Wan2.2 的 14B 模型總共有 270 億個參數,但每一步推理只激活其中 140 億個參數。它的運作方式很聰明:

  • 高噪音專家(High-Noise Expert):負責影片初始佈局,決定整體構圖和運動方向
  • 低噪音專家(Low-Noise Expert):負責後期細節精煉,讓畫面更清晰、動作更流暢

這個設計讓 Wan2.2 在不增加推理成本的前提下,大幅提升了處理複雜運動、美學控制和語義理解的能力。官方數據顯示,相比 Wan2.1,Wan2.2 的訓練數據增加了 65.6% 的圖片和 83.2% 的影片。

模型家族一覽

Wan2.2 不只有一個模型,而是一整個家族,涵蓋不同任務:

模型任務特色
T2V-A14B文字轉影片MoE 架構,支援 480P/720P
I2V-A14B圖像轉影片MoE 架構,支援 480P/720P
TI2V-5B文/圖轉影片高壓縮 VAE,RTX 4090 就能跑 720P@24fps
S2V-14B語音轉影片音訊驅動,支援姿勢驅動
Animate-14B角色動畫動畫模式 + 替換模式

我們今天的主角就是最後這個 Animate-14B,它支援兩種模式:

  • Animate(動畫模式):輸入一張圖片 + 一段參考影片,讓圖片中的角色做出跟參考影片相同的動作
  • Replacement(替換模式):把影片中的某個角色替換成你指定的角色,保持原來的動作和場景

開源 + Apache 2.0:商業使用零疑慮

跟很多開源但限制重重的模型不同,Wan2.2 採用 Apache 2.0 授權,意味著你可以自由商用,不需要付授權金,也不用擔心法律問題。模型權重放在 Hugging Face 和 ModelScope 上,任何人都可以下載。

本地部署需要什麼硬體?

這是最關鍵的一環。跑開源模型跟用 SaaS 服務最大的差別就是——你要自己準備 GPU。

最低硬體需求

根據官方文件和社區測試,不同解析度和模型變體需要的 GPU VRAM 如下:

模型變體480P 所需 VRAM720P 所需 VRAM最低 GPU
1.3B T2V8–12 GB16–20 GBRTX 4090
14B Animate40–48 GB(FP8)65–80 GBH100 PCIe

這裡有幾個關鍵數字值得注意:

  • RTX 4090(24 GB):跑 14B 模型在 720P 下大約需要 28 GB 峰值 VRAM,需要開啟 --offload_model True--convert_model_dtype 參數來減少記憶體使用
  • RTX 3090(24 GB):通常不到 40 GB,但需要 offload 和轉換精度的組合
  • A100(40 GB):480P/720P 表現優秀,支援 24fps
  • H100(80 GB):14B 模型在 720P 下的標準配置,需要 FP8 量化
  • H200(141 GB):如果需要生成 10 秒以上影片或追求穩定性,這是最佳選擇

實測參考:消費級 GPU 能跑嗎?

社區有不少用 RTX 4090 跑 Wan2.2 的實測。一位 Reddit 使用者用 RTX 4090 Mobile(16 GB VRAM)+ 64 GB 系統記憶體 成功運行了 Wan2.2,使用的是 Q8 GGUF 量化版本。另一位使用者在 RTX 5060 Ti(16 GB)上搭配 64 GB RAM 也能跑,只是速度會慢一些。

這意味著,如果你的預算有限,消費級 GPU + 量化技術 也是一條可行之路。

部署方式

官方提供了 Python 腳本直接運行,也有 ComfyUI 的整合方案。基本安裝流程很直觀:

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
pip install -r requirements.txt
huggingface-cli download Wan-AI/Wan2.2-Animate-14B --local-dir ./Wan2.2-Animate-14B

然後透過 generate.py 腳本執行推理。如果你用 ComfyUI,只需要裝上 WanVideoWrapper 節點就能直接在視覺化介面中操作。

成本大比拼:本地部署 vs. Runway

好了,重點來了。我們來算算帳。

Runway 的收費結構

Runway 是目前最主流的 AI 影片生成 SaaS 平台,它的 Gen-3 Alpha 和最新的 Gen-4 系列都是市場上的一線產品。以下是它的定價結構:

方案月費每月點數Gen-3 Alpha 可生成
Free$0125 點(一次性)約 12.5 秒
Standard$12/月625 點約 62 秒(1 分鐘)
Pro$28/月2,250 點約 225 秒(3.75 分鐘)
Max$76/月9,500 點約 950 秒(15.8 分鐘)

注意:Gen-3 Alpha 的計價是 10 點 / 秒,Gen-3 Alpha Turbo 是 5 點 / 秒

換算成每分鐘的成本:

  • Standard 方案:$12 / 1 分鐘 = $12 / 分鐘
  • Pro 方案:$28 / 3.75 分鐘 = $7.47 / 分鐘
  • Max 方案:$76 / 15.8 分鐘 = $4.81 / 分鐘

Wan2.2 本地部署的一次性成本

本地部署的成本主要是 GPU 硬體。我們來看幾個典型方案:

方案硬體成本每月電費(預估)每月折舊
RTX 4090(二手約 $1,200)$1,200~$30~$100
RTX 5090(32 GB,約 $2,000)$2,000~$50~$167
A100 40GB(雲端 $2,500/月租賃)$0(雲端)含在月費中$2,500
H100 80GB(雲端 $3,000/月租賃)$0(雲端)含在月費中$3,000

這裡有個關鍵:本地部署的 GPU 不是只跑 Wan2.2 一個模型。同一張卡可以跑 Stable Diffusion、ComfyUI、各種 LLM,所以折舊成本應該攤提。但為了公平比較,我們先假設 GPU 專跑 Wan2.2。

雲端 GPU 的彈性方案

如果你不想一次投入大筆硬體成本,雲端 GPU 是另一個選擇。以 Spheron 為例:

雲端 GPU時薪5 秒 480P 成本5 秒 720P 成本
H100 SXM5(80 GB)$2.50~$0.17–0.21~$0.42–0.50
H200 SXM(141 GB)$4.54~$0.30–0.35~$0.61–0.76
H100 Spot(60% 折扣)$1.00~$0.07–0.08~$0.17–0.20

注意 Spot 實例可以省 60%,但適合不介意被中斷的批量處理場景。

另一條路:SiliconFlow API

如果你連 GPU 都不想管,SiliconFlow 提供 Wan2.2 的 API 服務:

模型單次生成成本
Wan2.1-I2V-14B-720P-Turbo~$0.21 / 影片
Wan2.2-I2V-A14B~$0.29 / 影片
Wan2.2-T2V-A14B~$0.29 / 影片

這裡的「影片」指的是約 5 秒的輸出。換算成每分鐘:約 $3.48 / 分鐘

總算帳:不同使用量下的成本比較

讓我們用三個典型場景來比較:

場景一:業餘創作者,每月生成 5 分鐘 AI 影片

方案月成本說明
Runway Standard$12剛好在額度內
Wan2.2 雲端(Spheron H100)~$10–15看解析度和時長
Wan2.2 API(SiliconFlow)~$17.4固定每分鐘 $3.48
Wan2.2 本地(RTX 4090)~$130含折舊和電費

結論:低使用量下,Runway Standard 最划算

場景二:內容創作者,每月生成 30 分鐘 AI 影片

方案月成本說明
Runway Pro$28還剩 26 分鐘額度
Runway Max$76額度足夠
Wan2.2 雲端(Spheron H100)~$60–90720P 約 $0.42–0.50/秒
Wan2.2 API(SiliconFlow)~$104.4固定每分鐘 $3.48
Wan2.2 本地(RTX 4090)~$130固定成本

結論:30 分鐘/月時,Runway Pro 仍然最便宜,但差距縮小

場景三:工作室級,每月生成 100 分鐘 AI 影片

方案月成本說明
Runway Max$76還剩約 84 分鐘額度
Wan2.2 雲端(H100 批量)~$200–300可加掛多張 GPU
Wan2.2 API(SiliconFlow)~$348固定每分鐘 $3.48
Wan2.2 本地(RTX 4090 x2)~$260含折舊和電費

結論:高使用量下,本地部署的規模效益開始顯現

隱形成本:你不能忽略的細節

除了看得見的金錢成本,還有幾個隱形因素:

  1. 等待時間:Runway 免費層和標準層有排隊時間,Pro 以上會快一些。本地部署則完全取決於你的 GPU 速度
  2. 生成時長限制:Runway 單段影片最長約 10 秒,需要多次生成拼接。Wan2.2 本地版可以生成更長的影片(取決於 VRAM)
  3. 角色一致性:Wan2.2 Animate 的看家本領就是角色一致性,這是 Runway 目前較弱的環節
  4. 靈活性:本地部署可以調整各種參數(採樣步數、CFG、種子等),Runway 的控制相對有限
  5. 無網路限制:本地部署離線也能跑,適合對網路品質不穩定的場景

優化技巧:讓每一塊錢都花得更值

如果你決定用 Wan2.2,這裡有幾個實測有效的優化技巧:

FP8 量化:VRAM 砍半,品質幾乎無損

將模型從 FP16 轉換為 FP8(fp8_e4m3fn) 量化,可以減少 20–40% 的 VRAM 使用,而品質損失幾乎察覺不到。在 ComfyUI 的 WanVideoModelLoader 節點中直接啟用即可。

解析度階梯法:480P 構圖 → 720P 輸出

先以 480P 快速生成確認構圖和動作,滿意後再用 720P 生成最終版本。480P 的生成成本只有 720P 的 1/3 到 1/2。

Spot 實例:批量處理省 60%

如果對時間不敏感(比如批量生成 100 個素材),使用雲端 GPU 的 Spot 實例可以節省約 60% 的成本。但要注意,Spot 實例可能被中斷,不適合需要即時確認的場景。

避免 LoRA:官方建議

官方文件明確建議不要使用基於 Wan2.2 訓練的 LoRA 模型,因為可能導致「意外行為」。目前 LoRA 在 Wan2.2 上的成熟度還不夠高。

總結:該選哪條路?

沒有絕對的答案,只有適合你的方案。這裡給個簡單的決策框架:

使用場景推薦方案
每月 < 10 分鐘Runway Standard / Pro
每月 10–50 分鐘Runway Pro 或 SiliconFlow API
每月 50–200 分鐘Wan2.2 雲端 GPU(H100)
每月 > 200 分鐘本地部署 GPU(RTX 4090 x2 或 A100)
重度角色動畫需求Wan2.2 Animate 本地部署(這是 Runway 做不到的)
預算有限但想試試Hugging Face Spaces 免費 Demo

最後說一句實話:開源模型的最大價值不只是省錢,而是「自由」。你不需要每月付訂閱費、不怕平台漲價、模型升級了直接下載新版本、甚至可以把模型裝到邊緣裝置上跑。

Runway 當然很好用,但如果你已經在重度使用 AI 影片生成,尤其是需要角色動畫這個場景,Wan2.2 Animate 的本地部署絕對值得你認真考慮。

省下的錢,拿去升級硬體,再省……再升級。這跟 Runway 的「每月點數歸零」邏輯相比,長期來看,開源模型的投資回報率確實更吸引人。


參考資料:Wan2.2 GitHubWan2.2 Animate DemoRunway 官方定價SiliconFlow 模型定價Spheron GPU 雲端