Vision Transformer

ViT

將Transformer用於圖像的架構

詳細解釋

Vision Transformer(ViT)是將Transformer架構應用於圖像的分類模型,用圖像patch替代詞token。

核心思想:

  • 圖像分塊:將圖像切為16×16的patch
  • Patch嵌入:每個patch線性投影為向量
  • 位置嵌入:添加位置資訊
  • Transformer編碼器:標準Transformer處理
  • 分類頭:[CLS]token輸出分類

卷積神經網絡 (CNN)的比較:

  • CNN:局部感受野,層次特徵
  • ViT:全局注意力,統一處理
  • ViT需要更多數據才能超越CNN
  • 混合架構:CNN早期+Transformer後期

優勢:

  • 全局關係:任意patch直接交互
  • 可擴展性:隨數據和模型增大持續提升
  • 統一架構:NLP和CV統一方法

代表模型:

  • ViT:原始版本
  • DeiT:知識蒸餾,小數據訓練
  • Swin:分層窗口注意力
  • DINOv2:自監督視覺表示

Transformer架構 (變換器 / 注意力模型) (Switch Transformer)統一AI各領域的重要一步。

探索更多AI詞彙

查看所有分類,繼續學習AI知識