詳細解釋
將圖像分配給預定義類別的計算機視覺任務,深度學習最成功的應用之一,從 2012 年 AlexNet 開始革命。
標準流程:
- 輸入:圖片(RGB 像素)
- 特徵提取:卷積層提取邊緣、紋理、形狀
- 分類頭:全連接層映射到類別概率
- 輸出:Softmax 概率分布
里程碑模型:
- AlexNet(2012):8 層,ImageNet 冠軍,深度學習復興
- VGG(2014):小卷積核(3x3)堆疊,簡潔美學
- ResNet(2015):殘差連接,可訓練 152+ 層
- EfficientNet(2019):復合縮放,效率優先
- Vision Transformer(2020):Transformer 進軍視覺
應用:
- 醫療:X 光、CT、病理切片診斷
- 自動駕駛:交通標識識別
- 安防:人臉識別、異常檢測
- 零售:貨架分析、自助結賬
- 農業:作物病害識別
挑戰:
- 對抗樣本:微小擾動導致錯誤分類
- 分布偏移:訓練數據與真實場景差異
- 長尾:罕見類別樣本少
- 可解釋性:為何這樣分類?
評估指標:
- Top-1/Top-5 準確率:最常見
- 混淆矩陣:各類別的詳細表現
- AUC-ROC:不平衡數據更可靠
與目標檢測、分割的區別:
- 分類:整張圖是什麼
- 檢測:圖中有什麼,在哪裡
- 分割:每個像素屬於什麼
這是「電腦視覺」的基礎任務—— 從「看到」到「理解」的第一步。