HappyHorse 1.1 深度評測：阿里影業級 AI 影片模型，音訊原生時代的來臨

Tue, 30 Jun 2026 18:30:00 +0800

前言

如果你最近混 AI 影片圈，一定聽過「HappyHorse」這個名字。阿里雲在 2026 年初推出的 HappyHorse 1.0 以「神祕黑馬」之姿橫空出世，短短幾個月內就衝上全球 AI 影片模型排行榜第二名——而且它的競爭對手正在一個接一個倒下：OpenAI 的 Sora 因為每天 100 萬美元的營運成本宣布停產，字節跳動的 Seedance 2.0 也因版權爭議無限期擱置。

而在這個節骨眼上，阿里雲丟出了 HappyHorse 1.1。這次升級不再只是炫技 demo，而是直指商業生產場景：多角色一致性、原生音訊同步、電影級鏡頭語言。這篇文章我會把 HappyHorse 1.1 的核心能力、技術架構、與市場定位一次講清楚，幫你判斷它值不值得進到你的工作流。

技術架構：150 億參數的統一 Transformer

HappyHorse 1.1 的底層架構是基於一個 150 億參數的統一自注意力 Transformer。它最特別的地方在於——文字、影像、影片、音訊 token 全部塞進同一個 token sequence 裡處理。

這意味著什麼？傳統影片生成管线通常需要：先跑一個影片生成模型，再用另一個 TTS 模型產語音，最後用唇形同步工具把嘴型對上。HappyHorse 1.1 因為所有模態共享同一個架構，可以在單一步驟內同時生成影片和音訊，並且做到「零漂移唇形同步」（zero-drift lip sync）。

AI Video on 凱凱的技術筆記

HappyHorse 1.1 深度評測：阿里影業級 AI 影片模型，音訊原生時代的來臨

前言

技術架構：150 億參數的統一 Transformer