潛在擴散

Latent Diffusion

在潛在空間的擴散

詳細解釋

潛在擴散(Latent Diffusion)是在潛在空間而非像素空間進行擴散過程,是Stable Diffusion的核心設計。

運作流程:

  1. VAE編碼:圖像→潛在表示(壓縮8倍)
  2. 潛在空間擴散:對潛在向量加噪/去噪
  3. VAE解碼:去噪後潛在向量→圖像

優勢:

  • 計算高效:8倍壓縮=64倍計算減少
  • 記憶體友好:更低解析度處理
  • 速度提升:訓練和推理都更快
  • 品質保持:VAE可逆壓縮損失小

與像素空間擴散的比較:

  • 像素級(DDPM):直接在圖像上
  • 潛在級(LDM):在VAE潛在空間
  • 潛在級更實用,成為主流

VAE的選擇:

  • 標準VAE:Stable Diffusion使用
  • 自訂VAE:不同版本略有差異
  • VAE品質影響最終輸出

應用:

  • Stable Diffusion系列
  • 視頻擴散(時空潛在空間)
  • 3D生成(3D潛在表示)

是高效大規模擴散生成的關鍵技術。

探索更多AI詞彙

查看所有分類,繼續學習AI知識