前言

最近 Z-Image-Turbo 在社群中掀起了一波熱潮——這個由阿里通義實驗室推出的影像生成模型,以極低的推理步數(僅 8 步)就能產生媲美競爭對手的品質,而且推理速度在 H800 上可達毫秒級。但對於想訓練角色 LoRA 的玩家來說,如何從零開始準備高品質的訓練素材,一直是個痛點。

這篇文章整合了 Reddit、HuggingFace Blog 以及多個 GitHub 社群的最新實測經驗,整理出一套完整的 Z-Image-Turbo + IP-Adapter FaceID 工作流,幫你從參考圖到訓練素材一次搞定。

- 廣告 -

IP-Adapter 對 Z-Image-Turbo 的支援現況

首先,我們需要釐清一個關鍵事實:Z-Image-Turbo 目前沒有專屬的 IP-Adapter FaceID 模型。但這不代表不能用 IP-Adapter,只是需要透過幾種替代方案來達成面部一致性。

方案一:SD3 IP-Adapter 轉換法(開發中)

研究人員 DragonDiffusionbyBoyo 發現,SD3 的 IP-Adapter 經過修改後可以跟 Z-Image-Turbo 相容。這個實作已經包含在 Boyonodes 中,檔案包括 zimage_ip_adapter_nodes.pyzimage_attention_wrapper.py。截至 2026 年 3 月仍在持續開發,是未來最有潛力的方案。

方案二:ControlNet Union(目前最穩定)

Z-Image-Turbo 官方提供了 Z-Image-Turbo-Fun-Controlnet-Union.safetensors,支援 Canny(邊緣)、Depth(空間構圖)和 DWPose(人物姿勢)三種模式。對於角色一致性來說,DWPose 特別好用——你可以用一張角色參考圖控制姿勢,再搭配 prompt 來控制表情和服裝。

方案三:傳統 IP-Adapter FaceID(SDXL/SD1.5)

直接插入 SDXL 或 SD1.5 的 IP-Adapter FaceID 模型也能跑,但面部相似度偏低。適合用來做「風格和構圖參考」,而不是精確的面部復現。

完整流程:從參考圖到 LoRA 訓練素材

Step 1:準備參考圖

參考圖的品質直接決定了 LoRA 的上限。以下是篩選建議:

  • 數量: 4-6 張即可開始,涵蓋正面、側面、半身、全身
  • 二次元角色: 從 Danbooru 下載,篩選條件 solo height:>=1024 width:>=1024 -monochrome
  • 真人: 手機拍攝多角度照片,確保光線充足、臉部清晰
  • 關鍵: 角色要清晰、無遮擋、無文字水印

Step 2:ComfyUI 生成訓練素材

這是整個流程的核心。以下是最基礎的工作流架構:

[[[[LLSSooaaaamvddpelIZeIm-rmaI:agmgeaee]gu]el-eTrIu,PrAb9doaspMttoeedpresl,F]aCc+FeGI[DT0e.(x0t,CEsonincmtoprdloeelrN]sect+heD[dWVuPAloEes]re])

關鍵設定:

參數設定值說明
Resolution1024×1024Z-Image-Turbo 的最佳生成尺寸
Steps9蒸馏模型只需極少步數
CFG0.0Z-Image-Turbo 不需要 CFG
Samplereuler搭配 simple scheduler
IP-Adapter weight0.6-0.8太高失去多樣性,太低 likeness 不夠

生成策略:

用同一張參考圖 + 不同 prompt 生成多張變化圖。變化維度包括:

  • 表情(微笑、嚴肅、驚訝)
  • 動作(坐著、站著、走路)
  • 鏡位(特寫、半身、全身)
  • 場景(公園、室內、戶外)

建議生成 15-30 張 1024×1024 的素材。數量不是越多越好,品質遠比數量重要。

Step 3:素材篩選標準

生成後的人工篩選決定了 LoRA 的乾淨程度:

  1. Solo: 僅目標人物一人,無其他角色
  2. Resolution: 長寬 ≥ 1024px
  3. 多角度: 正面、側面、半身、全身都要有
  4. 多場景: 不同背景、光影、構圖
  5. 多服裝: 如果 LoRA 要學角色,穿經典服裝;如果要學風格,換不同服裝
  6. 無瑕疵: 手腳完整、無變形、無多餘文字

Step 4:標記(Captioning)策略

標記是 LoRA 訓練中最容易被忽視、卻最關鍵的環節。以下是核心原則:

「描述你想讓它變化的東西,不要描述你想保留的。」

  • 想保留的長相特徵 → 不標記(用 trigger token 代表即可)
  • 想變化的背景/服裝 → 標記

Trigger Token 建議: 用非單字短串(如 zzMyChar),避免污染詞向量。

標記範例:

zzzzzzMMMyyyCCChhhaaarrr,,,bcflluuolesled-bruoepdsysp,osrhwtohrtia,tiets,tcaosnlmdliialnrig,ngob,nrosbwoenfatcbhel,litgs,hutns,sietbttl,iunrwgrienoddnbbpalacorkwkgirnbogeunnhcdahi,rgoldenhour

進階技巧:

  • 特寫圖:僅標記長相 + 上半身服裝
  • 全身圖:標記所有特徵
  • 換裝測試:標記 brown belt 後,模型在生成無皮帶服裝時,較不會自動加上皮帶(避免 Concept Bleeding)
  • 風格隔離:標記 anime 可防止生成寫實圖時被動漫風格侵蝕

Step 5:用 Ostris AI Toolkit 訓練 LoRA

以下是社區實測後的最佳設定(假設你有 RTX 4090 或 RunPod RTX 5090):

參數設定值說明
ModelZ-Image-Turbo (w/ Training Adapter)用 distilled checkpoint
Training Adaptertraining_adapter_v2.safetensors實驗性但品質更好
QuantizationTransformer/Text Encoder: None保持最高精度,需 >24GB VRAM
LoRA Rank (r)16社區實測最佳值
Steps1500-3000(5-15 張圖)過少學不到,過多過擬合
Batch Size1-2小資料集用大 batch 會不穩定
Learning Rate1e-4 ~ 5e-5嚴格身份約束用低的
Resolution512(單一解析度)大幅縮短時間,效果相近
Timestep BiasLow Noise關鍵!讓模型多學後期細節
Cache LatentsOn加速訓練
Max Step Saves12保留更多中間模型供選擇

硬體建議:

  • RunPod RTX 5090:約 1-2 小時(成本 $1-2 USD)
  • 本地 RTX 4090(24GB VRAM):約 2-4 小時
  • 16GB VRAM 開 Low VRAM mode 也可跑,但速度會較慢

關鍵洞察總結

經過多輪實測和社群討論,以下是幾個最值得記住的重點:

  1. Timestep Bias = Low Noise 是保留背景細節的關鍵參數。 很多新手忽略這個,導致訓練後的 LoRA 生成的背景一片扁平。

  2. AI 生成素材比原始圖更能確保一致性。 用 Z-Image-Turbo 本身 + IP-Adapter 生成訓練素材,人物與服裝一致性遠高於從 Danbooru 下載的原始圖(因為原始圖來自不同畫師)。

  3. 精細標記能有效解耦特徵。 解決換裝時的 Concept Bleeding 問題,核心就是「該標的標、不該標的不標」。

  4. Rank 16 + 512px 單一解析度是最佳平衡點。 高解析度訓練(1024px)看起來很威,但推理時的解析度差距過大,反而導致角色相似度下降。

  5. 不要只看 Loss Graph,要看 Sample Prompts 的視覺結果。 趨勢不明顯時,圖片會說謊少一點。

  6. 選擇「恰到好處」的 step。 1500 步 vs 3000 步,差別可能就在角色特徵是否足夠、同時又不破壞 Base Model 的原始能力。

  7. Z-Image IP-Adapter 專屬模型仍在開發中。 目前用 ControlNet Union 或 SD3 轉換版最穩定,值得持續關注 Boyonodes 的更新。

結語

Z-Image-Turbo 的推理速度和品質已經非常成熟,而 LoRA 訓練的門檻也在不斷降低。透過 IP-Adapter 或 ControlNet 生成一致的訓練素材,再搭配 Ostris AI Toolkit 的精準訓練設定,即使是消費級 GPU 也能在短時間內產出高品質的角色 LoRA。

重點不在於工具多花俏,而在於明確目標——知道模型要學什麼、不學什麼。有了這個前提,上述的流程和參數只是幫你少走彎路的工具而已。

- 廣告 -

參考來源:Reddit r/comfyui、HuggingFace Blog、Ostris AI Toolkit 文件、Boyonodes GitHub 等社群實測經驗。