語音克隆 | 凱凱的技術筆記

最近 AI 語音克隆技術越來越熱門，但大多數方案都需要昂貴的 GPU 來跑。如果你跟我一樣，手上只有一台 Proxmox VE（PVE）伺服器，沒有 GPU 直通，該怎麼辦？這篇文章要帶你在 PVE 的 LXC 容器裡，完全依靠 CPU 跑起來 MOSS-TTS-Nano——一個僅 0.1B 參數的輕量級語音合成模型。不需要 GPU、不需要複雜設定，四核心 CPU 就能流暢運行。 - 廣告 - 什麼是 MOSS-TTS-Nano？ MOSS-TTS-Nano 是一個開源的語音克隆（Voice Cloning）模型，由 OpenMOSS 團隊開發。它的 ONNX 版本特別適合 CPU 環境，因為：零 GPU 依賴：移除了 PyTorch，改用 ONNX Runtime 進行推理體積極小：僅 0.1B 參數，記憶體佔用極低語音克隆：只需一段參考音檔，就能複製指定人的聲音 OpenAI 格式相容：透過 bridge.py 可以偽裝成標準 TTS API，直接給 SillyTavern 用簡單來說，它讓你用最低的成本，體驗最完整的語音克隆功能。 ...