前言

如果你曾經用過 VideoScribe 或 Doodly 做過白板動畫,你就知道這套視覺語言有多麼強大——手繪線條在白色背景上一筆一筆出現,搭配旁白,能把複雜概念講得連阿公阿嬤都聽得懂。但問題也很明顯:手動選素材、排時間軸、錄旁白,一支兩分鐘的影片花個半天是常有的事。

現在,一位開發者 Yogendra Yatnalkar 推出了一個開源專案 Storyboard AI ,主打「輸入一段文字,自動產出一支完整的白板動畫影片」,從腳本、分鏡、插圖生成、動畫到配音字幕,全流程 AI 驅動。這個專案在 Reddit 的 r/SideProject 上引發了不少討論,目前已經獲得超過 59 個讚。

這篇文章帶你深入認識這個工具,看看它到底能做到什麼程度,以及跟市面上其他方案相比,有什麼優勢和限制。

- 廣告 -

Storyboard AI 到底是什麼?

簡單來說,Storyboard AI 是一套 Agentic Pipeline(智能代理管線),它的核心概念是用一個「導演代理(Director Agent)」來統籌整個影片製作流程。你只需要提供一個主題或一段文字描述,它就會自動完成以下步驟:

  1. 研究與腳本撰寫:根據你給的主題,自動生成一段有吸引力的敘事腳本。
  2. 分鏡規劃:把腳本拆解成多個場景,規劃每個場景的視覺呈現方式。
  3. 素材生成:為每個場景生成白畫風格的插圖。
  4. 動畫製作:模擬手繪過程,讓畫面以「邊畫邊出現」的效果呈現。
  5. 配音與字幕:合成語音旁白,並精準對齊字幕。

整個過程你幾乎不需要插手,這就是它被稱為「E2E(End-to-End)」的原因。

技術架構:它怎麼做到的?

Storyboard AI 的技術堆疊相當紮實,我們來拆解它的核心組件:

1. Director Agent 與子代理架構

Director Agent 是整個管線的大腦。它會將你輸入的高階主題拆解成多個場景,然後將每個場景的任務委派給專門的子代理:

  • 腳本代理:負責根據主題生成敘事腳本。
  • 分鏡代理:規劃每個場景的視覺結構。
  • 素材代理:生成白畫風格的插圖。
  • 動畫代理:處理繪畫動畫效果。
  • 音訊代理:合成旁白語音並對齊字幕。

這種「一個大代理帶一群小代理」的架構,在當前 AI Agent 應用中是非常主流且有效的设计模式。

2. 關鍵模型配置

專案的 config.py 中定義了幾個核心模型,目前使用的是 Google 的 Gemini 系列:

MODEL_NAME = "gemini-2.5-pro"
IMAGE_GEN_MODEL = "gemini-3-pro-image"
VEO_MODEL = "veo-3.1-generate-preview"
  • gemini-2.5-pro:負責腳本生成、分鏡規劃等文字與邏輯任務。
  • gemini-3-pro-image:生成白畫風格的插圖素材。
  • veo-3.1-generate-preview:處理影片動畫生成。

3. SAM 3 分割引擎

Storyboard AI 用到了 Segment Anything Model 3(SAM 3) 來做實例分割(instance segmentation)。這讓它能精確地從生成的插圖中提取出需要動畫化的元素,確保繪畫效果準確到位。

SAM 3 以 FastAPI 服務的形式運行,可以部署在 GCP Cloud Run 或本機 Docker 上,這讓管線具有良好的可擴展性——計算密集型任務可以推到雲端,不會卡在本機硬體。

4. 環境變數配置

所有設定都通過 .env 檔案管理,位於 genai-pipeline/ 目錄下。這讓使用者可以輕鬆替換模型端點(例如換成自己的 API key 或本地部署的模型)。

安裝與使用

環境需求

  • Python 3.x
  • Google Gemini API Key
  • SAM 3 服務(可選,支援本機 Docker 或 GCP Cloud Run 部署)
  • 建議有 GPU 加速(非強制,但能顯著提升生成速度)

安裝步驟

# 克隆專案
git clone https://github.com/yogendra-yatnalkar/storyboard-ai.git
cd storyboard-ai

# 安裝核心依賴
pip install -r requirements.txt

# 如果需要自部署 SAM 3 服務
cd sam3-hosting
pip install -r requirements.txt

執行流程

啟動後會進入互動式 CLI,依序提示你輸入:

  1. 主題/提示詞:你想製作什麼主題的影片?
  2. 場景數量:要分成幾個場景?
  3. 語言:支援英語和印地語。
  4. 執行偏好:是否使用 GPU 加速、是否自動拼接影片。

輸出結果

完成後,所有資產會存放在:

genaiss-tcpoeirnpyeeb_lo<iaNnr>ed//_ofuitnpault_/vriudne_o<.mp4>/##

.mp4 檔案就是最終成品,可以直接上傳 YouTube 或社群平台。

與市面方案的比較

要評估一個工具的好壞,最直接的方式就是跟同類產品放在一起比較。我們從幾個維度來看:

白板動畫工具市場全景

工具類型定價核心優勢
VideoScribe傳統手動$15-35/月12,000+ 插圖庫、精細時間控制
Doodly傳統手動~$67 買斷新手友善、買斷制
Powtoon傳統手動免費/付費多元動畫格式、企業級功能
Golpo AIAI 自動免費/付費文件轉影片、批量生成
Animaker 3.0AI 輔助免費/$20/月提示詞生成白板動畫
Storyboard AI開源 AI免費(模型費用另計)全自動 Agentic Pipeline、高度可定制

Storyboard AI 的獨特優勢

1. 真正的開源

跟 Golpo AI、Animaker 等「免費但有水印或用量限制」的方案不同,Storyboard AI 完全開源。你可以自由修改管線中的任何環節——想換掉腳本模型?換掉插圖生成模型?想加自己的素材庫?都行。

2. Agentic Pipeline 的深度自動化

很多 AI 影片工具只是「用 AI 幫你選素材」,但 Storyboard AI 的 Director Agent 會自動完成從腳本到成品的全鏈路。你給一個主題,它自己決定要分幾個場景、每個場景畫什麼、旁白怎麼說。這種自主性在開源工具中相當罕見。

3. 可擴展的雲端架構

SAM 3 服務可以獨立部署到 Cloud Run,這意味著你可以用一台便宜的 CPU 機器跑管線邏輯,把計算密集的分割任務推到雲端。對於個人開發者來說,這比買一張顯卡划算多了。

4. 模型可替換

目前的配置用的是 Google 的 Gemini 系列,但因為所有模型端點都通過環境變數配置,你可以輕易換成 OpenAI、Anthropic、或任何你覺得更好的模型。

需要注意的限制

1. 模型 API 費用

開源不等於免費。每次生成影片都要調用 Gemini API(文字、圖片、影片各一輪),如果生成的場景多、解析度高,費用不會太低。根據目前配置,一支 5 場景的影片,API 成本大約在 $0.50-$2.00 之間(視模型定價而定)。

2. 語言支援有限

目前 CLI 只支援英語和印地語。雖然腳本代理理論上可以支援其他語言,但需要手動調整 prompt 或配置。對於需要繁體中文或簡體中文語音的用戶,可能需要額外配置 TTS 引擎。

3. 品質取決於模型

白板動畫的插圖品質高度依賴 gemini-3-pro-image 的生成能力。如果模型生成的畫面細節不足,手繪效果可能會顯得粗糙。這跟 VideoScribe 那種經過精心設計的矢量圖庫相比,在「專業感」上還有一段距離。

4. 生成時間

一支 5 場景的影片,從輸入到輸出大約需要 10-30 分鐘(取決於模型響應速度和場景數量)。對於需要快速出片的場景,這個速度可能不夠快。

適合誰用?

基於以上分析,我認為 Storyboard AI 最適合以下幾類用戶:

✅ 教育創作者

如果你有大量教學內容需要轉成影片,這個工具能大幅降低製作門檻。寫一段文字描述,剩下的交給 AI。尤其適合 YouTuber 和教育機構批量生產教學影片。

✅ AI 開發者 / 技術愛好者

作為一個展示 Agentic Pipeline 實作的優秀範例,Storyboard AI 的程式碼結構值得學習。你可以 fork 之後,替換自己的模型、加入新的子代理、甚至擴充到其他動畫風格。

✅ 預算有限的創業者

比起花 $3,000-$8,000 請專業工作室製作一支影片,Storyboard AI 的 API 成本不到它的零頭。對於需要頻繁產出說明影片的初創團隊來說,性價比極高。

❌ 不適合的場景

  • 品牌宣傳片:需要高度客製化的視覺風格,AI 生成的白畫風可能不夠「高級」。
  • 產品 UI 演示:白板動畫不適合展示精細的介面操作。
  • 短影音平台(TikTok/Reels):60 秒以內的影片,用白板動畫反而顯得拖沓。

實際應用場景舉例

讓我們用幾個具體例子來看看 Storyboard AI 能幫你做什麼:

場景一:知識科普頻道

輸入:「解釋量子計算的基本原理」

輸出:一支 3 分鐘的白板動畫,從經典比特講到量子疊加,再到量子纏結,每個概念都用簡單的圖形輔助說明。

場景二:企業 SOP 影片化

輸入:「新員工入職流程:從報到、領設備、設定帳號到第一週培訓」

輸出:一支 5 分鐘的引導影片,每個步驟都有對應的圖示和文字說明,比文字手冊直觀得多。

場景三:課程教材輔助

輸入:「光合作用的過程:光反應與暗反應」

輸出:一支 4 分鐘的教學動畫,用視覺化的方式呈現葉綠體中發生的化學反應,學生一看就懂。

總結

Storyboard AI 目前處於 v1.0.0 版本,已經具備完整的全自動管線能力。它最大的價值在於把「白板動畫製作」這個原本需要專業技能和時間投入的流程,壓縮成了一個文字輸入框

雖然在品質、語言支援和成本上還有進步空間,但考慮到它是開源的、架構是可擴展的、模型是可替換的,未來的發展潛力相當值得期待。如果你剛好需要大量產出白板動畫影片,或者想研究 Agentic Pipeline 的實作方式,這個專案絕對值得收藏和試用。

專案網址:github.com/yogendra-yatnalkar/storyboard-ai

- 廣告 -

喜歡這種 AI 工具分享嗎?歡迎追蹤我的網誌,我會持續整理各種實用 AI 工具和開源專案,幫你節省找資料的時間。