自回歸視覺模型

Auto-regressive Vision

以自回歸方式生成圖像

詳細解釋

將自回歸生成範式(逐 token 預測)應用於視覺任務的技術,與基於擴散或 GAN 的圖像生成相對。GPT-4o 的圖像生成、Google 的 Parti 都使用此方法。

核心思想:

  • 將圖像量化為離散 token(如 VQ-VAE 的 codebook 索引)
  • 用 Transformer 逐個預測這些 token(左上到右下,或随机順序)
  • 解碼器將 token 序列還原為像素

與擴散模型的對比:

  • 自回歸:
  • 優勢:與文本 LLM 架構統一,可無縫融合多模態
  • 劣勢:生成慢(需序列預測),圖像質量傳統上不如擴散
  • 擴散:
  • 優勢:並行去噪,圖像質量高(Stable Diffusion、DALL-E 3)
  • 劣勢:獨立架構,與文本模型整合複雜

最新進展(2024):

  • GPT-4o 的圖像生成:自回歸 + 高質量達到擴散水平
  • 統一生成:同一模型生成文本和圖像(原生多模態)
  • 速度優化:投機解碼、并行 token 預測縮小與擴散的差距

應用:

  • 多模態 LLM:圖像理解 + 生成統一
  • 視頻生成:幀間自回歸(Sora)
  • 布局生成:UI 設計、文檔布局的結構化生成

這是「LLM 吞併一切」趨勢的一部分—— 統一架構處理所有模態,而非為每個模態設計專用模型。

探索更多AI詞彙

查看所有分類,繼續學習AI知識