在 AI 生成音訊的領域中,Stability AI 推出的 Stable Audio 3.0 無疑是一個里程碑。這套全新家族式的音訊生成模型,不僅支援從短促音效到長達六分多鐘的完整音樂作品,更重要的是——它採用完全授權的音樂數據集訓練,意味著你生成的作品可以直接商用。
而 ComfyUI 作為目前最靈活的 AI 創作平台,已經在 Stable Audio 3.0 發布當天就提供了首日支援(Day-0 Support)。這篇文章將帶你從零開始,了解 Stable Audio 3.0 的模型差異、ComfyUI 中的部署流程,以及實際使用技巧。
Stable Audio 3.0 模型家族概覽
Stable Audio 3.0 並非單一模型,而是一個針對不同使用場景設計的模型家族。理解這些差異,能幫助你選擇最適合的方案。
| 模型變體 | 主要用途 | 最大長度 | 硬體需求 |
|---|---|---|---|
| 3.0 Small SFX | 音效、環境音 | ≤ 2 分鐘 | CPU 即可運行 |
| 3.0 Small | 完整音樂創作 | ≤ 2 分鐘 | CPU 即可運行 |
| 3.0 Medium | 高音樂性、長曲目 | ~6 分 20 秒 | 需要 GPU |
| 3.0 Large | 進階音樂性、低延遲 | ~6 分 20 秒 | API / 企業部署 |
幾個值得注意的亮點:
- 可變長度生成:Stable Audio 3.0 引入了全新的可變長度生成方法,支援以每秒為單位的精確控制。這跟舊版固定 11 秒的生成方式相比,是一個巨大的躍進。
- 商用授權:個人和小組織可使用社群授權(Community License),年營收超過 100 萬美元的企業則需要企業授權(Enterprise License),包含法律賠償保證和微調支援。
- LoRa 微調:3.0 Small 和 3.0 Medium 都公開了權重和 LoRa 訓練文件,你可以用自有音樂庫進行微調。
- 因果延續(Causal Continuation):支援從現有音訊的結尾繼續生成,讓你的音樂可以無縫延長。
ComfyUI 中的部署流程
ComfyUI 對 Stable Audio 3.0 的整合非常直觀,不需要額外的自訂節點(Custom Nodes),核心節點已經內建在 ComfyUI 0.22.0 以上版本中。
前置準備
- 確保 ComfyUI 已更新至 0.22.0 以上版本(或使用 Comfy Cloud)。
- 如果使用的是 Medium 模型,準備好 GPU 環境。Small 模型則可以在 CPU 上運行。
模型下載與放置
從 Stability AI 的 HuggingFace 集合下載所需模型:https://huggingface.co/collections/stabilityai/stable-audio-3
下載後,按照以下目錄結構放置檔案:
檢查點模型(Checkpoints):
文字編碼器(Text Encoders):
放置完成後,在 ComfyUI 介面中按下 R 鍵重新整理節點和載入模型。
小提示:如果你發現核心節點沒有出現,可能是穩定版尚未推送最新核心節點,可以嘗試切換到 Nightly 版本。
兩種工作流程:進階與基礎
ComfyUI 為 Stable Audio 3.0 提供了兩種主要的工作流程,對應不同深度的使用需求。
進階流程:Stable Audio 3 Medium(推薦)
這個流程內建了 Qwen 驅動的提示詞擴展模板,能將你簡單的創意想法自動擴展為詳細的生成提示。
工作流程:
- 輸入一個簡短的文字創意(例如「Lo-fi 音樂」)
- 設定目標長度(秒)
- 選擇類別(Music / Instrument / SFX / One-shot)
- 開啟
use_reprompt開關,啟用 Qwen 擴展 - 執行生成
Qwen 擴展會先將你的簡短提示理解並擴展為包含樂器、節奏、氛圍、BPM 等細節的完整提示,再送進生成模型。這個過程叫做「類別感知的重新提示」(Category-aware Reprompting),能顯著提升生成結果的準確度。
範例提示:
Lo-fi hip-hop chill track with mellow electric piano, soft vinyl crackle, subtle synth pads, low-pass filtered drums, percussion loops, and soft plucked bass for a relaxed, dreamy vibe. BPM: 75. Length: 150 seconds
基礎流程:Stable Audio 3 Medium Base
如果你已經有一組詳細的提示詞,可以直接使用基礎流程跳過 Qwen 擴展步驟,加快生成速度。
工作流程:
- 輸入完整的詳細提示詞
- 設定目標長度和種子值
- 執行生成
基礎流程的優勢在於沒有額外的 LLM 擴展步驟,適合需要快速迭代的場景。
兩個工作流程的 JSON 模板:
實用提示與技巧
1. 提示詞撰寫要訣
Stable Audio 3.0 對詳細描述的提示詞反應非常好。一個好的提示詞應該包含以下元素:
- 音樂風格與流派:Lo-fi、Jazz、Electronic、Classical 等
- 主要樂器:Electric Piano、Acoustic Guitar、Synth Pad 等
- 氛圍描述:Relaxed、Energetic、Dreamy、Melancholic 等
- 技術參數:BPM(節拍數)、長度(秒數)
- 音效細節:Vinyl crackle、Reverb、Doppler effect 等
2. 音效生成示例
除了音樂,Stable Audio 3.0 的音效生成能力同樣出色:
Car speeding past at high velocity, doppler effect, realistic whoosh. Length: 3 seconds
Rain falling on tin roof, distant thunder, gentle wind. Length: 120 seconds
Small-SFX 模型在 CPU 上就能運行,對於音效生成來說非常輕量且高效。
3. 輸出位置
生成的音訊檔案會自動儲存到 ComfyUI/output/audio/ 目錄下,方便你直接取用。
4. 種子值控制
跟其他 AI 生成模型一樣,Stable Audio 3.0 也支援種子值(Seed)設定。固定種子值可以讓你重現相同的生成結果,對於迭代調整非常有用。
5. 硬體建議
- Small 模型:CPU 即可運行,適合快速原型和音效生成
- Medium 模型:建議至少 12GB VRAM 的 GPU,才能順暢運行並生成完整長度的曲目
與其他 AI 音訊模型的比較
在 Stable Audio 3.0 出現之前,市場上主要的 AI 音訊生成選項包括 Suno、Udio、AudioCraft 等。Stable Audio 3.0 的優勢在於:
- 商用授權明確:不像某些模型的授權條款模糊不清,Stable Audio 3.0 的授權條件非常清晰
- 可變長度:從 3 秒到 6 分鐘都能生成,靈活性遠勝於舊版固定長度
- ComfyUI 整合:在視覺化工作流中直接使用,可以跟圖像生成、影片生成等其他節點串聯
- 本地部署:Small 模型可在本地運行,不需要雲端連線
總結
Stable Audio 3.0 在 ComfyUI 中的整合,讓音樂生成從「雲端 API 調用」進化為「本地化、可視化、可串聯」的创作流程。無論你是想要製作背景音樂、遊戲音效,還是進行音樂實驗,Stable Audio 3.0 都提供了一個強大的基礎。
對於初次使用者,建議從 Small-SFX 模型開始體驗,熟悉提示詞的撰寫方式後,再升級到 Medium 模型挑戰更長的音樂作品。ComfyUI 的模板庫內建了現成的工作流程,你不需要從零搭建,直接載入模板即可開始創作。
AI 音樂生成的門檻正在快速降低,而 Stable Audio 3.0 + ComfyUI 的組合,無疑是目前最值得關注的方案之一。