AI音樂 | 凱凱的技術筆記

在 AI 生成音訊的領域中，Stability AI 推出的 Stable Audio 3.0 無疑是一個里程碑。這套全新家族式的音訊生成模型，不僅支援從短促音效到長達六分多鐘的完整音樂作品，更重要的是——它採用完全授權的音樂數據集訓練，意味著你生成的作品可以直接商用。而 ComfyUI 作為目前最靈活的 AI 創作平台，已經在 Stable Audio 3.0 發布當天就提供了首日支援（Day-0 Support）。這篇文章將帶你從零開始，了解 Stable Audio 3.0 的模型差異、ComfyUI 中的部署流程，以及實際使用技巧。 - 廣告 - Stable Audio 3.0 模型家族概覽 Stable Audio 3.0 並非單一模型，而是一個針對不同使用場景設計的模型家族。理解這些差異，能幫助你選擇最適合的方案。模型變體主要用途最大長度硬體需求 3.0 Small SFX 音效、環境音 ≤ 2 分鐘 CPU 即可運行 3.0 Small 完整音樂創作 ≤ 2 分鐘 CPU 即可運行 3.0 Medium 高音樂性、長曲目 ~6 分 20 秒需要 GPU 3.0 Large 進階音樂性、低延遲 ~6 分 20 秒 API / 企業部署幾個值得注意的亮點： ...