3中級模型架構
DINO (自監督視覺 Transformer)
DINO (Self-Distillation with No Labels)
Meta 提出的自監督 Vision Transformer 訓練方法,無標籤自蒸餾,可學到語義分割與物體邊界。
詳細解釋
DINO(Self-Distillation with No Labels)是 Meta(Facebook AI Research)於 2021 年發表的自監督學習方法,用於訓練 Vision Transformer(ViT)。學生與教師網路架構相同,對同一張圖的不同增強視角(multi-crop:兩塊全域、多塊局部)做預測,教師以動量更新,學生與教師輸出對齊,無需任何標籤。
特點:自監督 ViT 的注意力圖可直接反映語義分割與物體邊界;線性探針在 ImageNet 上可達約 80% top-1;優於同期監督 ViT 與 CNN。與 Vision Transformer、嵌入向量 (嵌入 / 詞嵌入 / 向量嵌入) (Embedding Lookup)、自監督學習相關;程式開源於 GitHub(Apache-2.0)。