詳細解釋
模型在從未見過某類別訓練樣本的情況下,僅憑描述或相關信息就能識別該類別的能力。
傳統 vs 零樣本:
- 傳統監督學習:每類需數百數千樣本
- 零樣本:訓練時未見過該類別,僅憑描述識別
- 示例:模型見過「狗」「貓」的圖片,憑「有四條腿的家養寵物」描述識別「兔子」
實現方式:
- 屬性預測:學習預測類別的視覺屬性,新類別組合屬性
- 嵌入空間:圖片和類別描述映射到同一空間,最近鄰匹配
- 生成模型:根據描述生成樣本,再分類
- LLM 時代:用自然語言描述新類別,模型理解語義
評估基準:
- ImageNet Zero-Shot:用詞向量描述類別
- CUB、AWA:細粒度識別(鳥類、動物屬性)
- CLIP:圖片-文本對比學習,天然支持零樣本
與少樣本學習(Few-shot)的對比:
- 零樣本:0 個樣本,純描述
- 少樣本:1-10 個樣本,快速適應
- 都旨在減少對大量標註數據的依賴
應用:
- 新產品識別:電商上新SKU無需重新訓練
- 稀有疾病:醫學影像中罕見病變
- 開放集識別:面對未知的未知(unknown unknowns)
挑戰:
- 描述質量:依賴準確的類別描述
- 粒度限制:細微差異難以語言描述
- 領域差距:訓練域與目標域差異大時失敗
這是「人類級泛化」的嘗試—— 像人類一樣,聽描述就識別新事物。