<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>AI Video on 凱凱的技術筆記</title><link>https://kaikai365.com/tags/ai-video/</link><description>Recent content in AI Video on 凱凱的技術筆記</description><generator>Hugo</generator><language>zh-TW</language><lastBuildDate>Tue, 30 Jun 2026 18:30:00 +0800</lastBuildDate><atom:link href="https://kaikai365.com/tags/ai-video/index.xml" rel="self" type="application/rss+xml"/><item><title>HappyHorse 1.1 深度評測：阿里影業級 AI 影片模型，音訊原生時代的來臨</title><link>https://kaikai365.com/posts/2026-06-30-happyhorse-1-1-deep-dive/</link><pubDate>Tue, 30 Jun 2026 18:30:00 +0800</pubDate><guid>https://kaikai365.com/posts/2026-06-30-happyhorse-1-1-deep-dive/</guid><description>&lt;h2 id="前言">前言&lt;/h2>
&lt;p>如果你最近混 AI 影片圈，一定聽過「HappyHorse」這個名字。阿里雲在 2026 年初推出的 HappyHorse 1.0 以「神祕黑馬」之姿橫空出世，短短幾個月內就衝上全球 AI 影片模型排行榜第二名——而且它的競爭對手正在一個接一個倒下：OpenAI 的 Sora 因為每天 100 萬美元的營運成本宣布停產，字節跳動的 Seedance 2.0 也因版權爭議無限期擱置。&lt;/p>
&lt;p>而在這個節骨眼上，阿里雲丟出了 HappyHorse 1.1。這次升級不再只是炫技 demo，而是直指商業生產場景：多角色一致性、原生音訊同步、電影級鏡頭語言。這篇文章我會把 HappyHorse 1.1 的核心能力、技術架構、與市場定位一次講清楚，幫你判斷它值不值得進到你的工作流。&lt;/p>
&lt;div class="adsense-container" style="margin: 20px 0; text-align: center;">
&lt;span style="font-size: 12px; color: #888; display: block; margin-bottom: 5px;">- 廣告 -&lt;/span>
&lt;ins class="adsbygoogle"
style="display:block; text-align:center;"
data-ad-layout="in-article"
data-ad-format="fluid"
data-ad-client="ca-pub-7490556205068980"
data-ad-slot="YYYYYYYYYY">&lt;/ins>
&lt;script>
(adsbygoogle = window.adsbygoogle || []).push({});
&lt;/script>
&lt;/div>
&lt;h2 id="技術架構150-億參數的統一-transformer">技術架構：150 億參數的統一 Transformer&lt;/h2>
&lt;p>HappyHorse 1.1 的底層架構是基於一個 &lt;strong>150 億參數的統一自注意力 Transformer&lt;/strong>。它最特別的地方在於——文字、影像、影片、音訊 token 全部塞進同一個 token sequence 裡處理。&lt;/p>
&lt;p>這意味著什麼？傳統影片生成管线通常需要：先跑一個影片生成模型，再用另一個 TTS 模型產語音，最後用唇形同步工具把嘴型對上。HappyHorse 1.1 因為所有模態共享同一個架構，可以在&lt;strong>單一步驟&lt;/strong>內同時生成影片和音訊，並且做到「零漂移唇形同步」（zero-drift lip sync）。&lt;/p></description></item></channel></rss>