詳細解釋
將自回歸生成範式(逐 token 預測)應用於視覺任務的技術,與基於擴散或 GAN 的圖像生成相對。GPT-4o 的圖像生成、Google 的 Parti 都使用此方法。
核心思想:
- 將圖像量化為離散 token(如 VQ-VAE 的 codebook 索引)
- 用 Transformer 逐個預測這些 token(左上到右下,或随机順序)
- 解碼器將 token 序列還原為像素
與擴散模型的對比:
- 自回歸:
- 優勢:與文本 LLM 架構統一,可無縫融合多模態
- 劣勢:生成慢(需序列預測),圖像質量傳統上不如擴散
- 擴散:
- 優勢:並行去噪,圖像質量高(Stable Diffusion、DALL-E 3)
- 劣勢:獨立架構,與文本模型整合複雜
最新進展(2024):
- GPT-4o 的圖像生成:自回歸 + 高質量達到擴散水平
- 統一生成:同一模型生成文本和圖像(原生多模態)
- 速度優化:投機解碼、并行 token 預測縮小與擴散的差距
應用:
- 多模態 LLM:圖像理解 + 生成統一
- 視頻生成:幀間自回歸(Sora)
- 布局生成:UI 設計、文檔布局的結構化生成
這是「LLM 吞併一切」趨勢的一部分—— 統一架構處理所有模態,而非為每個模態設計專用模型。