影像分類

Image Classification

將整張影像判定為單一類別的視覺任務

詳細解釋

將圖像分配給預定義類別的計算機視覺任務,深度學習最成功的應用之一,從 2012 年 AlexNet 開始革命。

標準流程:

  • 輸入:圖片(RGB 像素)
  • 特徵提取:卷積層提取邊緣、紋理、形狀
  • 分類頭:全連接層映射到類別概率
  • 輸出:Softmax 概率分布

里程碑模型:

  • AlexNet(2012):8 層,ImageNet 冠軍,深度學習復興
  • VGG(2014):小卷積核(3x3)堆疊,簡潔美學
  • ResNet(2015):殘差連接,可訓練 152+ 層
  • EfficientNet(2019):復合縮放,效率優先
  • Vision Transformer(2020):Transformer 進軍視覺

應用:

  • 醫療:X 光、CT、病理切片診斷
  • 自動駕駛:交通標識識別
  • 安防:人臉識別、異常檢測
  • 零售:貨架分析、自助結賬
  • 農業:作物病害識別

挑戰:

  • 對抗樣本:微小擾動導致錯誤分類
  • 分布偏移:訓練數據與真實場景差異
  • 長尾:罕見類別樣本少
  • 可解釋性:為何這樣分類?

評估指標:

  • Top-1/Top-5 準確率:最常見
  • 混淆矩陣:各類別的詳細表現
  • AUC-ROC:不平衡數據更可靠

與目標檢測、分割的區別:

  • 分類:整張圖是什麼
  • 檢測:圖中有什麼,在哪裡
  • 分割:每個像素屬於什麼

這是「電腦視覺」的基礎任務—— 從「看到」到「理解」的第一步。

相關AI領域

探索更多AI詞彙

查看所有分類,繼續學習AI知識