前言
最近 Z-Image-Turbo 在社群中掀起了一波熱潮——這個由阿里通義實驗室推出的影像生成模型,以極低的推理步數(僅 8 步)就能產生媲美競爭對手的品質,而且推理速度在 H800 上可達毫秒級。但對於想訓練角色 LoRA 的玩家來說,如何從零開始準備高品質的訓練素材,一直是個痛點。
這篇文章整合了 Reddit、HuggingFace Blog 以及多個 GitHub 社群的最新實測經驗,整理出一套完整的 Z-Image-Turbo + IP-Adapter FaceID 工作流,幫你從參考圖到訓練素材一次搞定。
IP-Adapter 對 Z-Image-Turbo 的支援現況
首先,我們需要釐清一個關鍵事實:Z-Image-Turbo 目前沒有專屬的 IP-Adapter FaceID 模型。但這不代表不能用 IP-Adapter,只是需要透過幾種替代方案來達成面部一致性。
方案一:SD3 IP-Adapter 轉換法(開發中)
研究人員 DragonDiffusionbyBoyo 發現,SD3 的 IP-Adapter 經過修改後可以跟 Z-Image-Turbo 相容。這個實作已經包含在 Boyonodes 中,檔案包括 zimage_ip_adapter_nodes.py 和 zimage_attention_wrapper.py。截至 2026 年 3 月仍在持續開發,是未來最有潛力的方案。
方案二:ControlNet Union(目前最穩定)
Z-Image-Turbo 官方提供了 Z-Image-Turbo-Fun-Controlnet-Union.safetensors,支援 Canny(邊緣)、Depth(空間構圖)和 DWPose(人物姿勢)三種模式。對於角色一致性來說,DWPose 特別好用——你可以用一張角色參考圖控制姿勢,再搭配 prompt 來控制表情和服裝。
方案三:傳統 IP-Adapter FaceID(SDXL/SD1.5)
直接插入 SDXL 或 SD1.5 的 IP-Adapter FaceID 模型也能跑,但面部相似度偏低。適合用來做「風格和構圖參考」,而不是精確的面部復現。
完整流程:從參考圖到 LoRA 訓練素材
Step 1:準備參考圖
參考圖的品質直接決定了 LoRA 的上限。以下是篩選建議:
- 數量: 4-6 張即可開始,涵蓋正面、側面、半身、全身
- 二次元角色: 從 Danbooru 下載,篩選條件
solo height:>=1024 width:>=1024 -monochrome - 真人: 手機拍攝多角度照片,確保光線充足、臉部清晰
- 關鍵: 角色要清晰、無遮擋、無文字水印
Step 2:ComfyUI 生成訓練素材
這是整個流程的核心。以下是最基礎的工作流架構:
關鍵設定:
| 參數 | 設定值 | 說明 |
|---|---|---|
| Resolution | 1024×1024 | Z-Image-Turbo 的最佳生成尺寸 |
| Steps | 9 | 蒸馏模型只需極少步數 |
| CFG | 0.0 | Z-Image-Turbo 不需要 CFG |
| Sampler | euler | 搭配 simple scheduler |
| IP-Adapter weight | 0.6-0.8 | 太高失去多樣性,太低 likeness 不夠 |
生成策略:
用同一張參考圖 + 不同 prompt 生成多張變化圖。變化維度包括:
- 表情(微笑、嚴肅、驚訝)
- 動作(坐著、站著、走路)
- 鏡位(特寫、半身、全身)
- 場景(公園、室內、戶外)
建議生成 15-30 張 1024×1024 的素材。數量不是越多越好,品質遠比數量重要。
Step 3:素材篩選標準
生成後的人工篩選決定了 LoRA 的乾淨程度:
- Solo: 僅目標人物一人,無其他角色
- Resolution: 長寬 ≥ 1024px
- 多角度: 正面、側面、半身、全身都要有
- 多場景: 不同背景、光影、構圖
- 多服裝: 如果 LoRA 要學角色,穿經典服裝;如果要學風格,換不同服裝
- 無瑕疵: 手腳完整、無變形、無多餘文字
Step 4:標記(Captioning)策略
標記是 LoRA 訓練中最容易被忽視、卻最關鍵的環節。以下是核心原則:
「描述你想讓它變化的東西,不要描述你想保留的。」
- 想保留的長相特徵 → 不標記(用 trigger token 代表即可)
- 想變化的背景/服裝 → 標記
Trigger Token 建議: 用非單字短串(如 zzMyChar),避免污染詞向量。
標記範例:
進階技巧:
- 特寫圖:僅標記長相 + 上半身服裝
- 全身圖:標記所有特徵
- 換裝測試:標記
brown belt後,模型在生成無皮帶服裝時,較不會自動加上皮帶(避免 Concept Bleeding) - 風格隔離:標記
anime可防止生成寫實圖時被動漫風格侵蝕
Step 5:用 Ostris AI Toolkit 訓練 LoRA
以下是社區實測後的最佳設定(假設你有 RTX 4090 或 RunPod RTX 5090):
| 參數 | 設定值 | 說明 |
|---|---|---|
| Model | Z-Image-Turbo (w/ Training Adapter) | 用 distilled checkpoint |
| Training Adapter | training_adapter_v2.safetensors | 實驗性但品質更好 |
| Quantization | Transformer/Text Encoder: None | 保持最高精度,需 >24GB VRAM |
| LoRA Rank (r) | 16 | 社區實測最佳值 |
| Steps | 1500-3000(5-15 張圖) | 過少學不到,過多過擬合 |
| Batch Size | 1-2 | 小資料集用大 batch 會不穩定 |
| Learning Rate | 1e-4 ~ 5e-5 | 嚴格身份約束用低的 |
| Resolution | 512(單一解析度) | 大幅縮短時間,效果相近 |
| Timestep Bias | Low Noise | 關鍵!讓模型多學後期細節 |
| Cache Latents | On | 加速訓練 |
| Max Step Saves | 12 | 保留更多中間模型供選擇 |
硬體建議:
- RunPod RTX 5090:約 1-2 小時(成本 $1-2 USD)
- 本地 RTX 4090(24GB VRAM):約 2-4 小時
- 16GB VRAM 開 Low VRAM mode 也可跑,但速度會較慢
關鍵洞察總結
經過多輪實測和社群討論,以下是幾個最值得記住的重點:
Timestep Bias = Low Noise 是保留背景細節的關鍵參數。 很多新手忽略這個,導致訓練後的 LoRA 生成的背景一片扁平。
AI 生成素材比原始圖更能確保一致性。 用 Z-Image-Turbo 本身 + IP-Adapter 生成訓練素材,人物與服裝一致性遠高於從 Danbooru 下載的原始圖(因為原始圖來自不同畫師)。
精細標記能有效解耦特徵。 解決換裝時的 Concept Bleeding 問題,核心就是「該標的標、不該標的不標」。
Rank 16 + 512px 單一解析度是最佳平衡點。 高解析度訓練(1024px)看起來很威,但推理時的解析度差距過大,反而導致角色相似度下降。
不要只看 Loss Graph,要看 Sample Prompts 的視覺結果。 趨勢不明顯時,圖片會說謊少一點。
選擇「恰到好處」的 step。 1500 步 vs 3000 步,差別可能就在角色特徵是否足夠、同時又不破壞 Base Model 的原始能力。
Z-Image IP-Adapter 專屬模型仍在開發中。 目前用 ControlNet Union 或 SD3 轉換版最穩定,值得持續關注 Boyonodes 的更新。
結語
Z-Image-Turbo 的推理速度和品質已經非常成熟,而 LoRA 訓練的門檻也在不斷降低。透過 IP-Adapter 或 ControlNet 生成一致的訓練素材,再搭配 Ostris AI Toolkit 的精準訓練設定,即使是消費級 GPU 也能在短時間內產出高品質的角色 LoRA。
重點不在於工具多花俏,而在於明確目標——知道模型要學什麼、不學什麼。有了這個前提,上述的流程和參數只是幫你少走彎路的工具而已。
參考來源:Reddit r/comfyui、HuggingFace Blog、Ostris AI Toolkit 文件、Boyonodes GitHub 等社群實測經驗。