詳細解釋
潛在擴散(Latent Diffusion)是在潛在空間而非像素空間進行擴散過程,是Stable Diffusion的核心設計。
運作流程:
- VAE編碼:圖像→潛在表示(壓縮8倍)
- 潛在空間擴散:對潛在向量加噪/去噪
- VAE解碼:去噪後潛在向量→圖像
優勢:
- 計算高效:8倍壓縮=64倍計算減少
- 記憶體友好:更低解析度處理
- 速度提升:訓練和推理都更快
- 品質保持:VAE可逆壓縮損失小
與像素空間擴散的比較:
- 像素級(DDPM):直接在圖像上
- 潛在級(LDM):在VAE潛在空間
- 潛在級更實用,成為主流
VAE的選擇:
- 標準VAE:Stable Diffusion使用
- 自訂VAE:不同版本略有差異
- VAE品質影響最終輸出
應用:
- Stable Diffusion系列
- 視頻擴散(時空潛在空間)
- 3D生成(3D潛在表示)
是高效大規模擴散生成的關鍵技術。