Stable Audio 3.0 在 ComfyUI 中的部署與使用:高品質音樂生成
在 AI 生成音訊的領域中,Stability AI 推出的 Stable Audio 3.0 無疑是一個里程碑。這套全新家族式的音訊生成模型,不僅支援從短促音效到長達六分多鐘的完整音樂作品,更重要的是——它採用完全授權的音樂數據集訓練,意味著你生成的作品可以直接商用。 而 ComfyUI 作為目前最靈活的 AI 創作平台,已經在 Stable Audio 3.0 發布當天就提供了首日支援(Day-0 Support)。這篇文章將帶你從零開始,了解 Stable Audio 3.0 的模型差異、ComfyUI 中的部署流程,以及實際使用技巧。 - 廣告 - Stable Audio 3.0 模型家族概覽 Stable Audio 3.0 並非單一模型,而是一個針對不同使用場景設計的模型家族。理解這些差異,能幫助你選擇最適合的方案。 模型變體 主要用途 最大長度 硬體需求 3.0 Small SFX 音效、環境音 ≤ 2 分鐘 CPU 即可運行 3.0 Small 完整音樂創作 ≤ 2 分鐘 CPU 即可運行 3.0 Medium 高音樂性、長曲目 ~6 分 20 秒 需要 GPU 3.0 Large 進階音樂性、低延遲 ~6 分 20 秒 API / 企業部署 幾個值得注意的亮點: ...