前幾天在 r/comfyui 上看到一則貼文,標題平平無奇——「LTX 2.3 Video Builder UI for ComfyUI - High Level Beta Overview」,點進去看完整個 Demo 影片後,我第一個念頭是:AI 影片生成工具終於要從「極客的玩具」變成「創作者的武器」了。

這篇文章不只是想介紹這個工具,我想帶你從 LTX 2.3 模型本身聊到 ComfyUI 上的 Video Builder 工作流程,再聊聊它對整個 AI 影片生態的意義。如果你曾經用過 Runway、Pika 或 Sora,但苦於不夠靈活;或者你已經在用 ComfyUI 做影像生成,卻覺得影片流程太零散——這篇文章應該會讓你眼睛一亮。

- 廣告 -

LTX 2.3 是什麼?為什麼它值得關注?

LTX 2.3 是以色列公司 Lightricks 推出的開源影片生成模型,架構上採用 Diffusion Transformer(DiT),是目前高階生成式影片的主流架構。它的最大賣點可以用一句話概括:「一個模型,搞定影片+同步音訊。」

核心規格亮點

能力說明
最高解析度4K(4096×2160)
最高幀率50 FPS
影片長度最長 20 秒
畫幅比例16:9、9:16(原生支援)、1:1
音訊原生同步生成
授權年營收低於 1000 萬美元的企業可免費商用

這裡有幾個關鍵升級值得注意:

1. 重新設計的潛在空間(Latent Space) LTX 2.3 訓練了一個更高品質的 Video VAE,意味著細部表現(髮絲、文字、邊緣)比前代 LTX-2 更銳利。簡單來說,生成的畫面不會再有一層「AI 糊感」。

2. 4 倍大的文字連接器(Text Connector) 這讓模型能理解更複雜的空間關係和風格指示。你不再只能寫「一隻貓在草地上」,而是可以描述「一隻橘貓坐在遠處的木製長椅上,背景是夕陽的薄霧,鏡頭緩慢推進」——模型會給出更貼近預期的結果。

3. 原生直向影片支援 不是從橫向裁切,而是原生支援 1080×1920 的直向生成。這對 TikTok、Reels、Shorts 創作者來說是一大步。

4. 雙模態生成(Fast Flow vs Pro Flow) LTX 2.3 提供了兩種生成流程:Fast Flow 用於快速迭代,Pro Flow 用於高保真輸出。這個設計思路跟 Google 的 Veo 3.1(Fast/Quality 雙模式)不謀而合,反映出整個產業已經意識到:速度跟品質一樣重要。

LTX 2.3 在市場上的定位

如果拿 2025-2026 年 AI 影片模型市場來比較,LTX 2.3 的定位很清晰:

  • Sora 2 Pro / Veo 3.1(Quality):影業級品質,但慢且閉源
  • LTX 2.3(Pro/Ultra):開源、可本地部署、4K/50fps 能力,品質分數約 7.5/10
  • LTX 2.3(Fast):接近即時生成,S/S 比率低於 1.0,適合快速原型

LTX 2.3 的優勢不在於「最頂尖的畫質」,而在於**「夠好、夠快、夠自由」**——你可以下載權重在本地跑、可以微調 LoRA、可以接 ComfyUI 做複雜的工作流。對獨立創作者和小團隊來說,這比花月費訂閱 Sora 或 Runway 靈活太多了。

ComfyUI Video Builder:把節點圖變成「影片工作室」

接下來是這篇文章的主角——VRGamedevGirl 開發的 Video Builder for ComfyUI(目前處於 Beta 測試階段)。

如果你用過 ComfyUI,你知道它的介面是一團節點(nodes)和連線。新手看到那種畫面通常會退縮,但 Video Builder 做了一件很聰明的事情:它在節點圖之上蓋了一層 UI,讓使用者可以用更直觀的方式操作背後複雜的工作流。

它怎麼運作?

Video Builder 的核心概念是「場景化(Scene-based)影片生成」。傳統 AI 影片工具通常一次只生成一段影片,但 Video Builder 讓你:

  1. 定義場景:每個場景有獨立的提示詞、參考圖、影片模式
  2. 設定時間軸:對接歌詞、語音或自訂時間標記
  3. 逐場景生成:每個場景可以獨立微調提示詞、參考圖、影片參數
  4. 自動拼接:生成完成後自動合併成完整影片

這聽起來不難?但背後的技術深度不淺。讓我拆解幾個關鍵模組:

核心功能模組

🧙 Wizard Workflow(精靈工作流) 一鍵啟動的引導式流程,適合新手快速上手。選擇模式(文字轉影片、圖片轉影片等),輸入基本參數,系統自動生成。

🎵 Lyric Mapping & Timing(歌詞對映與時間標記) 這是 Video Builder 的招牌功能。它可以:

  • 自動轉錄音訊中的歌詞
  • 將歌詞分割並對映到不同場景
  • 根據歌詞節奏自動調整場景切換時間

這原本是為音樂影片設計的,但作者明確表示:它不只能做音樂影片。 短劇、口播影片、視覺化影片都能用。

🖼️ Reference Builder(參考圖生成器) 為每個場景自動生成參考圖,讓你不用手動準備每一幀的起點圖。你可以選擇用 LLM(大型語言模型)來生成提示詞,也可以手動輸入。

📋 Storyboard Builder(分鏡表生成器) 把整個影片的場景結構視覺化,類似傳統電影製作的分鏡表。你可以在這裡調整場景順序、長度、過場效果。

🎬 四種影片模式

  • Image-to-Video:給一張圖,讓它動起來
  • Reference-to-Video:給參考圖+參考影片,生成風格一致的影片
  • Ingredients-to-Video:給多個素材(圖片、影片片段),自動組合成新影片
  • Text-to-Video:純文字生成

🤖 LLM Prompt 生成 內建 LLM 選項,可以自動根據場景描述生成優化過的提示詞。這解決了 AI 影片生成最大的痛點之一——提示詞工程

為什麼這很重要?

ComfyUI 一直有一個問題:它的節點圖介面對專業使用者來說很強大,但對一般創作者來說門檻太高。Video Builder 做了一個很聰明的平衡——讓自動化跟手動微調可以並存

你可以讓系統處理大部分流程(全自動模式),也可以逐場景調整提示詞、參考圖、時間軸(手動模式)。這種「可進可退」的設計,正是從「極客工具」走向「專業工具」的關鍵一步。

- 廣告 -

實際工作流程:從想法到成品

讓我們模擬一個實際場景。假設你要做一支 30 秒的產品介紹影片:

步驟 1:建立場景結構 在 Storyboard Builder 中定義 3-4 個場景,每個場景對應產品的不同面向(外觀、功能、使用情境)。

步驟 2:設定參考圖 用 Reference Builder 為每個場景生成參考圖,或者上傳自己的產品照片作為參考。

步驟 3:撰寫提示詞 可以用內建 LLM 生成提示詞,也可以手寫。建議每個場景 3-5 個清晰句子,描述鏡頭看到的內容(主體、場景、光影、動作),而不是抽象概念。

步驟 4:選擇影片模式 產品外觀用 Image-to-Video,功能展示用 Text-to-Video,使用情境用 Reference-to-Video。

步驟 5:生成與微調 逐場景生成,對不滿意的情況微調提示詞或參考圖。Video Builder 的優勢在於你可以只重新生成某個場景,不用整個重來。

步驟 6:拼接與後製 生成完成後自動拼接。如果需要加音樂或字幕,可以接 LTX Desktop(Lightricks 的本地剪輯軟體)做最後處理。

整個流程大約需要多少時間?取決於解析度和 GPU。在一张 RTX 4090 上,1080p 的影片生成大約每秒影片需要 5-10 秒(Pro Flow),Fast Flow 可以壓縮到 2-3 秒。一支 30 秒的影片,包含微調時間,大約 15-30 分鐘。

LTX 2.3 的優勢與限制

任何工具都有它的邊界。了解這些邊界,才能用好它。

優勢

速度與迭代效率 在消費級 GPU 上,LTX 2.3 的 Fast Flow 可以達到「比實時還快」的生成速度。這意味著你可以在喝咖啡的功夫裡測試多個版本,這是閉源 API 工具難以比擬的。

本地部署與隱私 模型權重開放在 HuggingFace,你可以下載後在本地跑。資料不用上傳到雲端,適合對隱私敏感的使用者(比如產品設計圖、人物肖像)。

開源生態 因為是開源,社區可以不斷開發新的節點、微調模型、擴展功能。ComfyUI 上的 Video Builder 就是例子——一個獨立開發者就能在 LTX 2.3 之上建構出完整的影片工作流工具。

商業授權友好 年營收低於 1000 萬美元的企業可以免費商用。這對小團隊和獨立創作者來說是一大福音。

限制

複雜動態場景表現有限 LTX 2.3 在自然景觀(水流、樹葉、雲朵)和風格化場景上表現優秀,但對於精細的解剖結構(手部、多角色互動)仍有困難。這不是 LTX 2.3 的問題,而是目前所有 AI 影片模型的共同難題。

長影片一致性 目前最長支援 20 秒的單段生成。超過這個長度需要分段生成再拼接,場景之間的一致性需要靠參考圖和 LoRA 來維持。

從 LTX-2 升級的兼容性 如果你之前用 LTX-2 訓練了自己的 LoRA,升级到 2.3 需要重新訓練,因為潛在空間已經改變。

VRAM 需求 4K 解析度需要較大的 VRAM。雖然 1080p 在 12GB VRAM 的卡上就能跑,但 4K 建議 24GB 以上。

適合誰用?

根據我的觀察,Video Builder + LTX 2.3 這個組合特別適合以下幾類使用者:

🎬 獨立影片創作者 不需要昂貴的訂閱費,在本地就能完成從生成到後製的完整流程。對於 YouTube、TikTok 創作者來說,這套工具的性價比非常高。

🎵 音樂影片製作者 Video Builder 的歌詞對映功能就是為這個場景設計的。從音訊轉錄、歌詞分割、場景對映到自動生成,幾乎是一條龍服務。

🎮 遊戲與 VR 開發者 VRGamedevGirl 這個開發者本身就是遊戲開發者,Video Builder 的場景化設計跟遊戲開發的關卡設計思路高度契合。可以用來快速生成遊戲過場動畫、角色宣傳影片。

📱 社群媒體團隊 需要大量產出短影片內容的團隊。LTX 2.3 的 Fast Flow 支援接近實時的生成速度,配合 Video Builder 的批量生成能力,可以大幅提升內容產能。

🔧 ComfyUI 進階使用者 如果你已經熟悉 ComfyUI 的節點系統,Video Builder 會在你的工作流之上增加一層「管理介面」,讓你不用每次都在節點圖裡找線。

安裝與上手

Video Builder 的安裝很簡單:

方法一:透過 ComfyUI Manager(推薦) 打開 ComfyUI → 點擊 Manager → Install Custom Nodes → 搜尋 vrgamedev 或輸入 GitHub URL。

方法二:手動安裝comfyui-vrgamedevgirl 複製到 ComfyUI/custom_nodes/ 目錄,然後安裝依賴套件:

pip install kornia librosa imageio

系統需求:

  • Python 3.10+
  • 建議 12GB+ VRAM(1080p),24GB+(4K)
  • ComfyUI 最新版

安裝完成後,在 ComfyUI 的節點選單中搜尋「VRGamedev」或「Video Builder」即可找到相關節點。

未來展望:AI 影片工具的下一個階段

LTX 2.3 + Video Builder 代表了一個趨勢:AI 影片工具正在從「單點生成」走向「完整工作流」。

過去的一年,我們看到 Sora、Veo 3.1、Kling 等閉源模型在品質上不斷突破,但 LTX 2.3 走了一條不同的路——不追求單點品質的極致,而是追求生態的完整性和靈活性。

我認為接下來 12 個月會有幾個關鍵發展:

1. 場景一致性技術的成熟 目前 AI 影片最大的痛點之一是長影片的場景一致性。LTX 2.3 的 IC-LoRA(Image Condition LoRA)是一個方向,但我們可能需要看到更多專門針對一致性設計的技術。

2. 與專業剪輯軟體的整合 LTX Desktop 已經是一個本地剪輯軟體,但跟 Adobe Premiere Pro、DaVinci Resolve 等專業工具的整合會是大勢所趨。

3. 即時生成 當生成速度超過 1.0 S/S(比實時還快),AI 影片工具就可以進入「即時互動」領域——比如直播濾鏡、動態 NPC、即時故事板等。

4. 多模態融合 LTX 2.3 已經支援音訊同步生成,下一步可能是多軌音訊(對話、背景音樂、音效)的分別控制,以及更精細的 lip-sync(嘴型同步)。

結語

LTX 2.3 的 Video Builder 還在 Beta 階段,功能每天都在更新。但這不影響它成為目前最完整的 ComfyUI 影片工作流工具之一

它最大的價值不在於某個單一功能,而在於把原本分散在多個節點、多個工作流中的影片生成步驟,整合成一個有結構、可管理、可微調的完整流程。這正是 AI 影片工具從「好玩」走向「好用」的關鍵一步。

如果你正在尋找一個開源、本地部署、靈活性高的 AI 影片生成方案,LTX 2.3 + Video Builder 值得你花時間試試。畢竟,在 AI 影片這個快速變化的領域裡,「夠好+夠快+夠自由」往往比「最頂級但昂貴」更實用。


參考資料:LTX 2.3 官方頁面LTX 官方 GitHubVideo Builder GitHubMiraflow LTX 2.3 技術解析Reddit r/comfyui 討論串