詳細解釋
卷積神經網絡(Convolutional Neural Network, CNN)是專門處理網格結構數據(圖像、時間序列)的架構,通過卷積層提取局部特徵,是計算機視覺的標準方法。
核心組件:
- 卷積層:
- 卷積核(濾波器)在輸入上滑動
- 提取局部特徵(邊緣、紋理、形狀)
- 參數共享:同一卷積核應用於整個輸入
- 池化層:
- 降採樣(Max Pooling、Average Pooling)
- 減少計算量,提供平移不變性
- 全連接層:
- 最後的分類或回歸層
- 將特徵映射轉換為輸出
優勢:
- 參數效率:卷積核遠小於全連接
- 局部連接:捕捉空間局部性
- 平移不變性:目標移動仍能識別
- 層次特徵:
- 淺層:邊緣、顏色
- 中層:紋理、形狀
- 深層:物體部分、整體
經典架構:
- LeNet(1998):5層,手寫數字識別
- AlexNet(2012):8層,ImageNet冠軍,深度學習復興
- VGGNet(2014):16-19層,小卷積核(3×3)堆疊
- ResNet(2015):殘差連接,可訓練152+層
- EfficientNet(2019):複合縮放,效率優化
應用領域:
- 圖像分類:物體識別
- 目標檢測:R-CNN、YOLO系列
- 語義分割:像素級分類
- 人臉識別:特徵提取
- 醫學影像:病變檢測
- 視頻分析:時空特徵
與Transformer的對比:
- CNN:歸納偏置強,數據效率高
- Vision Transformer:更靈活,大數據下更強
- 混合趨勢:結合兩者優勢(如ConvNeXt)
現代發展:
- 深度可分離卷積:MobileNet的高效設計
- 空洞卷積:擴大感受野
- 可變形卷積:適應形狀變化
- 神經架構搜索:自動設計CNN
CNN是計算機視覺領域的基石技術。