詳細解釋
Swin Transformer是分層視覺Transformer,用移位窗口注意力高效處理高解析度圖像。
核心創新:
- 窗口注意力:只在局部窗口內計算注意力,減少計算
- 移位窗口:層間窗口偏移,實現跨窗口連接
- 分層設計:逐層下採樣,獲得多尺度特徵
- 線性複雜度:與圖像尺寸線性而非平方
架構:
- Patch分割:4×4像素為一個patch
- 多階段:每階段分辨率減半,維度加倍
- 窗口MSA:局部窗口內自注意力
- 移位窗口MSA:偏移的窗口注意力
優勢:
- 高效:與圖像尺寸線性
- 高精度:多尺度特徵
- 通用:適合各種視覺任務
應用:
- 圖像分類:ImageNet高精度
- 目標檢測:與特徵金字塔結合
- 語義分割:與U-Net結合
- 視頻:擴展到時序
與Vision Transformer的對比:
- ViT:全局注意力,計算量大
- Swin:局部+移位,高效
- 兩者都是視覺Transformer重要代表
是高效的視覺Transformer設計。