詳細解釋
Vision Transformer(ViT)是將Transformer架構應用於圖像的分類模型,用圖像patch替代詞token。
核心思想:
- 圖像分塊:將圖像切為16×16的patch
- Patch嵌入:每個patch線性投影為向量
- 位置嵌入:添加位置資訊
- Transformer編碼器:標準Transformer處理
- 分類頭:[CLS]token輸出分類
與卷積神經網絡 (CNN)的比較:
- CNN:局部感受野,層次特徵
- ViT:全局注意力,統一處理
- ViT需要更多數據才能超越CNN
- 混合架構:CNN早期+Transformer後期
優勢:
- 全局關係:任意patch直接交互
- 可擴展性:隨數據和模型增大持續提升
- 統一架構:NLP和CV統一方法
代表模型:
- ViT:原始版本
- DeiT:知識蒸餾,小數據訓練
- Swin:分層窗口注意力
- DINOv2:自監督視覺表示
是Transformer架構 (變換器 / 注意力模型) (Switch Transformer)統一AI各領域的重要一步。