Zero-1-to-3

Zero-1-to-3

單圖轉3D的技術

詳細解釋

哥倫比亞大學和 Google Research 於 2023 年發表的論文和模型,使用擴散模型從單張圖像生成多視角圖像(新視角合成)。

核心能力:

  • 輸入:物體的單張照片
  • 輸出:該物體在不同角度的圖像
  • 效果:像圍繞物體旋轉拍攝的多張照片

技術原理:

  • 利用預訓練的 2D 擴散模型的先驗知識
  • 相機姿態編碼:告訴模型要從什麼角度生成
  • 注意力機制:讓新視角關注輸入圖像的相關部分
  • 3D 一致性:確保多視角間的幾何一致性

應用場景:

  • 電商:單張產品照生成 360° 展示
  • 數字資產:快速創建 3D 紋理圖集
  • 虛擬現實:從照片重建可探索的場景
  • 電影製作:快速預演鏡頭角度

與 NeRF 的對比:

  • Zero-1-to-3:生成離散視角圖像,速度快
  • NeRF:生成連續 3D 場景,質量高但慢
  • 結合:先用 Zero-1-to-3 快速生成多視角,再訓練 NeRF

局限:

  • 遮擋:被遮擋部分需「幻覺」生成,可能不準確
  • 材質:反光、透明物體難以處理
  • 背景:複雜背景下的物體分離挑戰

這是「單圖到 3D」的關鍵進展—— 極大降低了 3D 內容創作的門檻,從專業建模到 AI 輔助生成。

探索更多AI詞彙

查看所有分類,繼續學習AI知識