在 AI 生成音訊的領域中,Stability AI 推出的 Stable Audio 3.0 無疑是一個里程碑。這套全新家族式的音訊生成模型,不僅支援從短促音效到長達六分多鐘的完整音樂作品,更重要的是——它採用完全授權的音樂數據集訓練,意味著你生成的作品可以直接商用。

而 ComfyUI 作為目前最靈活的 AI 創作平台,已經在 Stable Audio 3.0 發布當天就提供了首日支援(Day-0 Support)。這篇文章將帶你從零開始,了解 Stable Audio 3.0 的模型差異、ComfyUI 中的部署流程,以及實際使用技巧。

- 廣告 -

Stable Audio 3.0 模型家族概覽

Stable Audio 3.0 並非單一模型,而是一個針對不同使用場景設計的模型家族。理解這些差異,能幫助你選擇最適合的方案。

模型變體主要用途最大長度硬體需求
3.0 Small SFX音效、環境音≤ 2 分鐘CPU 即可運行
3.0 Small完整音樂創作≤ 2 分鐘CPU 即可運行
3.0 Medium高音樂性、長曲目~6 分 20 秒需要 GPU
3.0 Large進階音樂性、低延遲~6 分 20 秒API / 企業部署

幾個值得注意的亮點:

  • 可變長度生成:Stable Audio 3.0 引入了全新的可變長度生成方法,支援以每秒為單位的精確控制。這跟舊版固定 11 秒的生成方式相比,是一個巨大的躍進。
  • 商用授權:個人和小組織可使用社群授權(Community License),年營收超過 100 萬美元的企業則需要企業授權(Enterprise License),包含法律賠償保證和微調支援。
  • LoRa 微調:3.0 Small 和 3.0 Medium 都公開了權重和 LoRa 訓練文件,你可以用自有音樂庫進行微調。
  • 因果延續(Causal Continuation):支援從現有音訊的結尾繼續生成,讓你的音樂可以無縫延長。

ComfyUI 中的部署流程

ComfyUI 對 Stable Audio 3.0 的整合非常直觀,不需要額外的自訂節點(Custom Nodes),核心節點已經內建在 ComfyUI 0.22.0 以上版本中。

前置準備

  1. 確保 ComfyUI 已更新至 0.22.0 以上版本(或使用 Comfy Cloud)。
  2. 如果使用的是 Medium 模型,準備好 GPU 環境。Small 模型則可以在 CPU 上運行。

模型下載與放置

從 Stability AI 的 HuggingFace 集合下載所需模型:https://huggingface.co/collections/stabilityai/stable-audio-3

下載後,按照以下目錄結構放置檔案:

檢查點模型(Checkpoints):

📂Com📂fymUoId📂/elcsh/esscttkaapbbollieen__taasuu/ddiioo__33__mmeeddiiuumm._sbaafseet.esnasfoertsensors

文字編碼器(Text Encoders):

📂Com📂fymUoId📂/eltse/xtqt5w_geeennm3cm.oa5d__eb2r_bsb_/_bufl126..ssaaffeetteennssoorrss

放置完成後,在 ComfyUI 介面中按下 R 鍵重新整理節點和載入模型。

小提示:如果你發現核心節點沒有出現,可能是穩定版尚未推送最新核心節點,可以嘗試切換到 Nightly 版本。

兩種工作流程:進階與基礎

ComfyUI 為 Stable Audio 3.0 提供了兩種主要的工作流程,對應不同深度的使用需求。

進階流程:Stable Audio 3 Medium(推薦)

這個流程內建了 Qwen 驅動的提示詞擴展模板,能將你簡單的創意想法自動擴展為詳細的生成提示。

工作流程:

  1. 輸入一個簡短的文字創意(例如「Lo-fi 音樂」)
  2. 設定目標長度(秒)
  3. 選擇類別(Music / Instrument / SFX / One-shot)
  4. 開啟 use_reprompt 開關,啟用 Qwen 擴展
  5. 執行生成

Qwen 擴展會先將你的簡短提示理解並擴展為包含樂器、節奏、氛圍、BPM 等細節的完整提示,再送進生成模型。這個過程叫做「類別感知的重新提示」(Category-aware Reprompting),能顯著提升生成結果的準確度。

範例提示:

Lo-fi hip-hop chill track with mellow electric piano, soft vinyl crackle, subtle synth pads, low-pass filtered drums, percussion loops, and soft plucked bass for a relaxed, dreamy vibe. BPM: 75. Length: 150 seconds

基礎流程:Stable Audio 3 Medium Base

如果你已經有一組詳細的提示詞,可以直接使用基礎流程跳過 Qwen 擴展步驟,加快生成速度。

工作流程:

  1. 輸入完整的詳細提示詞
  2. 設定目標長度和種子值
  3. 執行生成

基礎流程的優勢在於沒有額外的 LLM 擴展步驟,適合需要快速迭代的場景。

兩個工作流程的 JSON 模板:

- 廣告 -

實用提示與技巧

1. 提示詞撰寫要訣

Stable Audio 3.0 對詳細描述的提示詞反應非常好。一個好的提示詞應該包含以下元素:

  • 音樂風格與流派:Lo-fi、Jazz、Electronic、Classical 等
  • 主要樂器:Electric Piano、Acoustic Guitar、Synth Pad 等
  • 氛圍描述:Relaxed、Energetic、Dreamy、Melancholic 等
  • 技術參數:BPM(節拍數)、長度(秒數)
  • 音效細節:Vinyl crackle、Reverb、Doppler effect 等

2. 音效生成示例

除了音樂,Stable Audio 3.0 的音效生成能力同樣出色:

Car speeding past at high velocity, doppler effect, realistic whoosh. Length: 3 seconds

Rain falling on tin roof, distant thunder, gentle wind. Length: 120 seconds

Small-SFX 模型在 CPU 上就能運行,對於音效生成來說非常輕量且高效。

3. 輸出位置

生成的音訊檔案會自動儲存到 ComfyUI/output/audio/ 目錄下,方便你直接取用。

4. 種子值控制

跟其他 AI 生成模型一樣,Stable Audio 3.0 也支援種子值(Seed)設定。固定種子值可以讓你重現相同的生成結果,對於迭代調整非常有用。

5. 硬體建議

  • Small 模型:CPU 即可運行,適合快速原型和音效生成
  • Medium 模型:建議至少 12GB VRAM 的 GPU,才能順暢運行並生成完整長度的曲目

與其他 AI 音訊模型的比較

在 Stable Audio 3.0 出現之前,市場上主要的 AI 音訊生成選項包括 Suno、Udio、AudioCraft 等。Stable Audio 3.0 的優勢在於:

  • 商用授權明確:不像某些模型的授權條款模糊不清,Stable Audio 3.0 的授權條件非常清晰
  • 可變長度:從 3 秒到 6 分鐘都能生成,靈活性遠勝於舊版固定長度
  • ComfyUI 整合:在視覺化工作流中直接使用,可以跟圖像生成、影片生成等其他節點串聯
  • 本地部署:Small 模型可在本地運行,不需要雲端連線

總結

Stable Audio 3.0 在 ComfyUI 中的整合,讓音樂生成從「雲端 API 調用」進化為「本地化、可視化、可串聯」的创作流程。無論你是想要製作背景音樂、遊戲音效,還是進行音樂實驗,Stable Audio 3.0 都提供了一個強大的基礎。

對於初次使用者,建議從 Small-SFX 模型開始體驗,熟悉提示詞的撰寫方式後,再升級到 Medium 模型挑戰更長的音樂作品。ComfyUI 的模板庫內建了現成的工作流程,你不需要從零搭建,直接載入模板即可開始創作。

AI 音樂生成的門檻正在快速降低,而 Stable Audio 3.0 + ComfyUI 的組合,無疑是目前最值得關注的方案之一。