卷積神經網絡 (CNN)

Convolutional Neural Network (CNN)

專門處理圖像數據的神經網絡架構

詳細解釋

卷積神經網絡(Convolutional Neural Network, CNN)是專門處理網格結構數據(圖像、時間序列)的架構,通過卷積層提取局部特徵,是計算機視覺的標準方法。

核心組件:

  • 卷積層:
  • 卷積核(濾波器)在輸入上滑動
  • 提取局部特徵(邊緣、紋理、形狀)
  • 參數共享:同一卷積核應用於整個輸入
  • 池化層:
  • 降採樣(Max Pooling、Average Pooling)
  • 減少計算量,提供平移不變性
  • 全連接層:
  • 最後的分類或回歸層
  • 將特徵映射轉換為輸出

優勢:

  • 參數效率:卷積核遠小於全連接
  • 局部連接:捕捉空間局部性
  • 平移不變性:目標移動仍能識別
  • 層次特徵:
  • 淺層:邊緣、顏色
  • 中層:紋理、形狀
  • 深層:物體部分、整體

經典架構:

  • LeNet(1998):5層,手寫數字識別
  • AlexNet(2012):8層,ImageNet冠軍,深度學習復興
  • VGGNet(2014):16-19層,小卷積核(3×3)堆疊
  • ResNet(2015):殘差連接,可訓練152+層
  • EfficientNet(2019):複合縮放,效率優化

應用領域:

  • 圖像分類:物體識別
  • 目標檢測:R-CNN、YOLO系列
  • 語義分割:像素級分類
  • 人臉識別:特徵提取
  • 醫學影像:病變檢測
  • 視頻分析:時空特徵

與Transformer的對比:

  • CNN:歸納偏置強,數據效率高
  • Vision Transformer:更靈活,大數據下更強
  • 混合趨勢:結合兩者優勢(如ConvNeXt)

現代發展:

  • 深度可分離卷積:MobileNet的高效設計
  • 空洞卷積:擴大感受野
  • 可變形卷積:適應形狀變化
  • 神經架構搜索:自動設計CNN

CNN是計算機視覺領域的基石技術。

相關AI領域

探索更多AI詞彙

查看所有分類,繼續學習AI知識