Z-Image-Turbo + IP-Adapter FaceID：最新 ComfyUI 工作流與 LoRA 訓練素材準備指南

前言

最近 Z-Image-Turbo 在社群中掀起了一波熱潮——這個由阿里通義實驗室推出的影像生成模型，以極低的推理步數（僅 8 步）就能產生媲美競爭對手的品質，而且推理速度在 H800 上可達毫秒級。但對於想訓練角色 LoRA 的玩家來說，如何從零開始準備高品質的訓練素材，一直是個痛點。

這篇文章整合了 Reddit、HuggingFace Blog 以及多個 GitHub 社群的最新實測經驗，整理出一套完整的 Z-Image-Turbo + IP-Adapter FaceID 工作流，幫你從參考圖到訓練素材一次搞定。

IP-Adapter 對 Z-Image-Turbo 的支援現況

首先，我們需要釐清一個關鍵事實：Z-Image-Turbo 目前沒有專屬的 IP-Adapter FaceID 模型。但這不代表不能用 IP-Adapter，只是需要透過幾種替代方案來達成面部一致性。

方案一：SD3 IP-Adapter 轉換法（開發中）

研究人員 DragonDiffusionbyBoyo 發現，SD3 的 IP-Adapter 經過修改後可以跟 Z-Image-Turbo 相容。這個實作已經包含在 Boyonodes 中，檔案包括 zimage_ip_adapter_nodes.py 和 zimage_attention_wrapper.py。截至 2026 年 3 月仍在持續開發，是未來最有潛力的方案。

方案二：ControlNet Union（目前最穩定）

Z-Image-Turbo 官方提供了 Z-Image-Turbo-Fun-Controlnet-Union.safetensors，支援 Canny（邊緣）、Depth（空間構圖）和 DWPose（人物姿勢）三種模式。對於角色一致性來說，DWPose 特別好用——你可以用一張角色參考圖控制姿勢，再搭配 prompt 來控制表情和服裝。

方案三：傳統 IP-Adapter FaceID（SDXL/SD1.5）

直接插入 SDXL 或 SD1.5 的 IP-Adapter FaceID 模型也能跑，但面部相似度偏低。適合用來做「風格和構圖參考」，而不是精確的面部復現。

完整流程：從參考圖到 LoRA 訓練素材

Step 1：準備參考圖

參考圖的品質直接決定了 LoRA 的上限。以下是篩選建議：

數量： 4-6 張即可開始，涵蓋正面、側面、半身、全身
二次元角色： 從 Danbooru 下載，篩選條件 solo height:>=1024 width:>=1024 -monochrome
真人： 手機拍攝多角度照片，確保光線充足、臉部清晰
關鍵： 角色要清晰、無遮擋、無文字水印

Step 2：ComfyUI 生成訓練素材

這是整個流程的核心。以下是最基礎的工作流架構：

關鍵設定：

參數	設定值	說明
Resolution	1024×1024	Z-Image-Turbo 的最佳生成尺寸
Steps	9	蒸馏模型只需極少步數
CFG	0.0	Z-Image-Turbo 不需要 CFG
Sampler	euler	搭配 simple scheduler
IP-Adapter weight	0.6-0.8	太高失去多樣性，太低 likeness 不夠

生成策略：

用同一張參考圖 + 不同 prompt 生成多張變化圖。變化維度包括：

表情（微笑、嚴肅、驚訝）
動作（坐著、站著、走路）
鏡位（特寫、半身、全身）
場景（公園、室內、戶外）

建議生成 15-30 張 1024×1024 的素材。數量不是越多越好，品質遠比數量重要。

Step 3：素材篩選標準

生成後的人工篩選決定了 LoRA 的乾淨程度：

Solo： 僅目標人物一人，無其他角色
Resolution： 長寬 ≥ 1024px
多角度： 正面、側面、半身、全身都要有
多場景： 不同背景、光影、構圖
多服裝： 如果 LoRA 要學角色，穿經典服裝；如果要學風格，換不同服裝
無瑕疵： 手腳完整、無變形、無多餘文字

Step 4：標記（Captioning）策略

標記是 LoRA 訓練中最容易被忽視、卻最關鍵的環節。以下是核心原則：

「描述你想讓它變化的東西，不要描述你想保留的。」

想保留的長相特徵 → 不標記（用 trigger token 代表即可）
想變化的背景/服裝 → 標記

Trigger Token 建議： 用非單字短串（如 zzMyChar），避免污染詞向量。

標記範例：

進階技巧：

特寫圖：僅標記長相 + 上半身服裝
全身圖：標記所有特徵
換裝測試：標記 brown belt 後，模型在生成無皮帶服裝時，較不會自動加上皮帶（避免 Concept Bleeding）
風格隔離：標記 anime 可防止生成寫實圖時被動漫風格侵蝕

Step 5：用 Ostris AI Toolkit 訓練 LoRA

以下是社區實測後的最佳設定（假設你有 RTX 4090 或 RunPod RTX 5090）：

參數	設定值	說明
Model	Z-Image-Turbo (w/ Training Adapter)	用 distilled checkpoint
Training Adapter	`training_adapter_v2.safetensors`	實驗性但品質更好
Quantization	Transformer/Text Encoder: None	保持最高精度，需 >24GB VRAM
LoRA Rank (r)	16	社區實測最佳值
Steps	1500-3000（5-15 張圖）	過少學不到，過多過擬合
Batch Size	1-2	小資料集用大 batch 會不穩定
Learning Rate	1e-4 ~ 5e-5	嚴格身份約束用低的
Resolution	512（單一解析度）	大幅縮短時間，效果相近
Timestep Bias	Low Noise	關鍵！讓模型多學後期細節
Cache Latents	On	加速訓練
Max Step Saves	12	保留更多中間模型供選擇

硬體建議：

RunPod RTX 5090：約 1-2 小時（成本 $1-2 USD）
本地 RTX 4090（24GB VRAM）：約 2-4 小時
16GB VRAM 開 Low VRAM mode 也可跑，但速度會較慢

關鍵洞察總結

經過多輪實測和社群討論，以下是幾個最值得記住的重點：

Timestep Bias = Low Noise 是保留背景細節的關鍵參數。 很多新手忽略這個，導致訓練後的 LoRA 生成的背景一片扁平。
AI 生成素材比原始圖更能確保一致性。 用 Z-Image-Turbo 本身 + IP-Adapter 生成訓練素材，人物與服裝一致性遠高於從 Danbooru 下載的原始圖（因為原始圖來自不同畫師）。
精細標記能有效解耦特徵。 解決換裝時的 Concept Bleeding 問題，核心就是「該標的標、不該標的不標」。
Rank 16 + 512px 單一解析度是最佳平衡點。 高解析度訓練（1024px）看起來很威，但推理時的解析度差距過大，反而導致角色相似度下降。
不要只看 Loss Graph，要看 Sample Prompts 的視覺結果。 趨勢不明顯時，圖片會說謊少一點。
選擇「恰到好處」的 step。 1500 步 vs 3000 步，差別可能就在角色特徵是否足夠、同時又不破壞 Base Model 的原始能力。
Z-Image IP-Adapter 專屬模型仍在開發中。 目前用 ControlNet Union 或 SD3 轉換版最穩定，值得持續關注 Boyonodes 的更新。

結語

Z-Image-Turbo 的推理速度和品質已經非常成熟，而 LoRA 訓練的門檻也在不斷降低。透過 IP-Adapter 或 ControlNet 生成一致的訓練素材，再搭配 Ostris AI Toolkit 的精準訓練設定，即使是消費級 GPU 也能在短時間內產出高品質的角色 LoRA。

重點不在於工具多花俏，而在於明確目標——知道模型要學什麼、不學什麼。有了這個前提，上述的流程和參數只是幫你少走彎路的工具而已。

參考來源：Reddit r/comfyui、HuggingFace Blog、Ostris AI Toolkit 文件、Boyonodes GitHub 等社群實測經驗。

前言#

IP-Adapter 對 Z-Image-Turbo 的支援現況#

方案一：SD3 IP-Adapter 轉換法（開發中）#

方案二：ControlNet Union（目前最穩定）#

方案三：傳統 IP-Adapter FaceID（SDXL/SD1.5）#

完整流程：從參考圖到 LoRA 訓練素材#

Step 1：準備參考圖#

Step 2：ComfyUI 生成訓練素材#

Step 3：素材篩選標準#

Step 4：標記（Captioning）策略#

Step 5：用 Ostris AI Toolkit 訓練 LoRA#

關鍵洞察總結#

結語#

前言