詳細解釋
哥倫比亞大學和 Google Research 於 2023 年發表的論文和模型,使用擴散模型從單張圖像生成多視角圖像(新視角合成)。
核心能力:
- 輸入:物體的單張照片
- 輸出:該物體在不同角度的圖像
- 效果:像圍繞物體旋轉拍攝的多張照片
技術原理:
- 利用預訓練的 2D 擴散模型的先驗知識
- 相機姿態編碼:告訴模型要從什麼角度生成
- 注意力機制:讓新視角關注輸入圖像的相關部分
- 3D 一致性:確保多視角間的幾何一致性
應用場景:
- 電商:單張產品照生成 360° 展示
- 數字資產:快速創建 3D 紋理圖集
- 虛擬現實:從照片重建可探索的場景
- 電影製作:快速預演鏡頭角度
與 NeRF 的對比:
- Zero-1-to-3:生成離散視角圖像,速度快
- NeRF:生成連續 3D 場景,質量高但慢
- 結合:先用 Zero-1-to-3 快速生成多視角,再訓練 NeRF
局限:
- 遮擋:被遮擋部分需「幻覺」生成,可能不準確
- 材質:反光、透明物體難以處理
- 背景:複雜背景下的物體分離挑戰
這是「單圖到 3D」的關鍵進展—— 極大降低了 3D 內容創作的門檻,從專業建模到 AI 輔助生成。