前言
如果你曾經用過 VideoScribe 或 Doodly 做過白板動畫,你就知道這套視覺語言有多麼強大——手繪線條在白色背景上一筆一筆出現,搭配旁白,能把複雜概念講得連阿公阿嬤都聽得懂。但問題也很明顯:手動選素材、排時間軸、錄旁白,一支兩分鐘的影片花個半天是常有的事。
現在,一位開發者 Yogendra Yatnalkar 推出了一個開源專案 Storyboard AI ,主打「輸入一段文字,自動產出一支完整的白板動畫影片」,從腳本、分鏡、插圖生成、動畫到配音字幕,全流程 AI 驅動。這個專案在 Reddit 的 r/SideProject 上引發了不少討論,目前已經獲得超過 59 個讚。
這篇文章帶你深入認識這個工具,看看它到底能做到什麼程度,以及跟市面上其他方案相比,有什麼優勢和限制。
Storyboard AI 到底是什麼?
簡單來說,Storyboard AI 是一套 Agentic Pipeline(智能代理管線),它的核心概念是用一個「導演代理(Director Agent)」來統籌整個影片製作流程。你只需要提供一個主題或一段文字描述,它就會自動完成以下步驟:
- 研究與腳本撰寫:根據你給的主題,自動生成一段有吸引力的敘事腳本。
- 分鏡規劃:把腳本拆解成多個場景,規劃每個場景的視覺呈現方式。
- 素材生成:為每個場景生成白畫風格的插圖。
- 動畫製作:模擬手繪過程,讓畫面以「邊畫邊出現」的效果呈現。
- 配音與字幕:合成語音旁白,並精準對齊字幕。
整個過程你幾乎不需要插手,這就是它被稱為「E2E(End-to-End)」的原因。
技術架構:它怎麼做到的?
Storyboard AI 的技術堆疊相當紮實,我們來拆解它的核心組件:
1. Director Agent 與子代理架構
Director Agent 是整個管線的大腦。它會將你輸入的高階主題拆解成多個場景,然後將每個場景的任務委派給專門的子代理:
- 腳本代理:負責根據主題生成敘事腳本。
- 分鏡代理:規劃每個場景的視覺結構。
- 素材代理:生成白畫風格的插圖。
- 動畫代理:處理繪畫動畫效果。
- 音訊代理:合成旁白語音並對齊字幕。
這種「一個大代理帶一群小代理」的架構,在當前 AI Agent 應用中是非常主流且有效的设计模式。
2. 關鍵模型配置
專案的 config.py 中定義了幾個核心模型,目前使用的是 Google 的 Gemini 系列:
MODEL_NAME = "gemini-2.5-pro"
IMAGE_GEN_MODEL = "gemini-3-pro-image"
VEO_MODEL = "veo-3.1-generate-preview"
- gemini-2.5-pro:負責腳本生成、分鏡規劃等文字與邏輯任務。
- gemini-3-pro-image:生成白畫風格的插圖素材。
- veo-3.1-generate-preview:處理影片動畫生成。
3. SAM 3 分割引擎
Storyboard AI 用到了 Segment Anything Model 3(SAM 3) 來做實例分割(instance segmentation)。這讓它能精確地從生成的插圖中提取出需要動畫化的元素,確保繪畫效果準確到位。
SAM 3 以 FastAPI 服務的形式運行,可以部署在 GCP Cloud Run 或本機 Docker 上,這讓管線具有良好的可擴展性——計算密集型任務可以推到雲端,不會卡在本機硬體。
4. 環境變數配置
所有設定都通過 .env 檔案管理,位於 genai-pipeline/ 目錄下。這讓使用者可以輕鬆替換模型端點(例如換成自己的 API key 或本地部署的模型)。
安裝與使用
環境需求
- Python 3.x
- Google Gemini API Key
- SAM 3 服務(可選,支援本機 Docker 或 GCP Cloud Run 部署)
- 建議有 GPU 加速(非強制,但能顯著提升生成速度)
安裝步驟
# 克隆專案
git clone https://github.com/yogendra-yatnalkar/storyboard-ai.git
cd storyboard-ai
# 安裝核心依賴
pip install -r requirements.txt
# 如果需要自部署 SAM 3 服務
cd sam3-hosting
pip install -r requirements.txt
執行流程
啟動後會進入互動式 CLI,依序提示你輸入:
- 主題/提示詞:你想製作什麼主題的影片?
- 場景數量:要分成幾個場景?
- 語言:支援英語和印地語。
- 執行偏好:是否使用 GPU 加速、是否自動拼接影片。
輸出結果
完成後,所有資產會存放在:
.mp4 檔案就是最終成品,可以直接上傳 YouTube 或社群平台。
與市面方案的比較
要評估一個工具的好壞,最直接的方式就是跟同類產品放在一起比較。我們從幾個維度來看:
白板動畫工具市場全景
| 工具 | 類型 | 定價 | 核心優勢 |
|---|---|---|---|
| VideoScribe | 傳統手動 | $15-35/月 | 12,000+ 插圖庫、精細時間控制 |
| Doodly | 傳統手動 | ~$67 買斷 | 新手友善、買斷制 |
| Powtoon | 傳統手動 | 免費/付費 | 多元動畫格式、企業級功能 |
| Golpo AI | AI 自動 | 免費/付費 | 文件轉影片、批量生成 |
| Animaker 3.0 | AI 輔助 | 免費/$20/月 | 提示詞生成白板動畫 |
| Storyboard AI | 開源 AI | 免費(模型費用另計) | 全自動 Agentic Pipeline、高度可定制 |
Storyboard AI 的獨特優勢
1. 真正的開源
跟 Golpo AI、Animaker 等「免費但有水印或用量限制」的方案不同,Storyboard AI 完全開源。你可以自由修改管線中的任何環節——想換掉腳本模型?換掉插圖生成模型?想加自己的素材庫?都行。
2. Agentic Pipeline 的深度自動化
很多 AI 影片工具只是「用 AI 幫你選素材」,但 Storyboard AI 的 Director Agent 會自動完成從腳本到成品的全鏈路。你給一個主題,它自己決定要分幾個場景、每個場景畫什麼、旁白怎麼說。這種自主性在開源工具中相當罕見。
3. 可擴展的雲端架構
SAM 3 服務可以獨立部署到 Cloud Run,這意味著你可以用一台便宜的 CPU 機器跑管線邏輯,把計算密集的分割任務推到雲端。對於個人開發者來說,這比買一張顯卡划算多了。
4. 模型可替換
目前的配置用的是 Google 的 Gemini 系列,但因為所有模型端點都通過環境變數配置,你可以輕易換成 OpenAI、Anthropic、或任何你覺得更好的模型。
需要注意的限制
1. 模型 API 費用
開源不等於免費。每次生成影片都要調用 Gemini API(文字、圖片、影片各一輪),如果生成的場景多、解析度高,費用不會太低。根據目前配置,一支 5 場景的影片,API 成本大約在 $0.50-$2.00 之間(視模型定價而定)。
2. 語言支援有限
目前 CLI 只支援英語和印地語。雖然腳本代理理論上可以支援其他語言,但需要手動調整 prompt 或配置。對於需要繁體中文或簡體中文語音的用戶,可能需要額外配置 TTS 引擎。
3. 品質取決於模型
白板動畫的插圖品質高度依賴 gemini-3-pro-image 的生成能力。如果模型生成的畫面細節不足,手繪效果可能會顯得粗糙。這跟 VideoScribe 那種經過精心設計的矢量圖庫相比,在「專業感」上還有一段距離。
4. 生成時間
一支 5 場景的影片,從輸入到輸出大約需要 10-30 分鐘(取決於模型響應速度和場景數量)。對於需要快速出片的場景,這個速度可能不夠快。
適合誰用?
基於以上分析,我認為 Storyboard AI 最適合以下幾類用戶:
✅ 教育創作者
如果你有大量教學內容需要轉成影片,這個工具能大幅降低製作門檻。寫一段文字描述,剩下的交給 AI。尤其適合 YouTuber 和教育機構批量生產教學影片。
✅ AI 開發者 / 技術愛好者
作為一個展示 Agentic Pipeline 實作的優秀範例,Storyboard AI 的程式碼結構值得學習。你可以 fork 之後,替換自己的模型、加入新的子代理、甚至擴充到其他動畫風格。
✅ 預算有限的創業者
比起花 $3,000-$8,000 請專業工作室製作一支影片,Storyboard AI 的 API 成本不到它的零頭。對於需要頻繁產出說明影片的初創團隊來說,性價比極高。
❌ 不適合的場景
- 品牌宣傳片:需要高度客製化的視覺風格,AI 生成的白畫風可能不夠「高級」。
- 產品 UI 演示:白板動畫不適合展示精細的介面操作。
- 短影音平台(TikTok/Reels):60 秒以內的影片,用白板動畫反而顯得拖沓。
實際應用場景舉例
讓我們用幾個具體例子來看看 Storyboard AI 能幫你做什麼:
場景一:知識科普頻道
輸入:「解釋量子計算的基本原理」
輸出:一支 3 分鐘的白板動畫,從經典比特講到量子疊加,再到量子纏結,每個概念都用簡單的圖形輔助說明。
場景二:企業 SOP 影片化
輸入:「新員工入職流程:從報到、領設備、設定帳號到第一週培訓」
輸出:一支 5 分鐘的引導影片,每個步驟都有對應的圖示和文字說明,比文字手冊直觀得多。
場景三:課程教材輔助
輸入:「光合作用的過程:光反應與暗反應」
輸出:一支 4 分鐘的教學動畫,用視覺化的方式呈現葉綠體中發生的化學反應,學生一看就懂。
總結
Storyboard AI 目前處於 v1.0.0 版本,已經具備完整的全自動管線能力。它最大的價值在於把「白板動畫製作」這個原本需要專業技能和時間投入的流程,壓縮成了一個文字輸入框。
雖然在品質、語言支援和成本上還有進步空間,但考慮到它是開源的、架構是可擴展的、模型是可替換的,未來的發展潛力相當值得期待。如果你剛好需要大量產出白板動畫影片,或者想研究 Agentic Pipeline 的實作方式,這個專案絕對值得收藏和試用。
專案網址:github.com/yogendra-yatnalkar/storyboard-ai
喜歡這種 AI 工具分享嗎?歡迎追蹤我的網誌,我會持續整理各種實用 AI 工具和開源專案,幫你節省找資料的時間。