物體檢測

Object Detection

在影像中定位並辨識物體類別的技術

詳細解釋

在圖像或視頻中定位並識別物體的計算機視覺任務,輸出物體類別和邊界框坐標,是自動駕駛、監控、機器人的核心技術。

核心任務:

  • 定位:預測物體的邊界框(x, y, width, height)
  • 分類:判斷物體類別(人、車、狗)
  • 多目標:一張圖中檢測多個物體
  • 多類別:區分不同類型的物體

經典架構:

  • R-CNN 系列:兩階段(先提候選區域,再分類)
  • Fast R-CNN、Faster R-CNN:速度遞進
  • YOLO(You Only Look Once):單階段,極速
  • YOLOv1-v8:實時檢測的代名詞
  • SSD:單階段多尺度檢測
  • Transformers:DETR、Deformable DETR

評估指標:

  • mAP(mean Average Precision):綜合精度和召回
  • IoU(Intersection over Union):預測框與真實框的重疊度
  • FPS:每秒處理幀數(實時性)

應用:

  • 自動駕駛:車輛、行人、交通標誌檢測
  • 安防:入侵檢測、異常行為
  • 零售:貨架分析、自助結賬
  • 醫療:病灶定位、細胞計數
  • 工業:缺陷檢測、零件計數

挑戰:

  • 小目標:遠處物體難以檢測
  • 遮擋:物體被部分遮擋
  • 尺度變化:同一物體不同大小
  • 實時性:高 FPS 與高精度的權衡

與圖像分類的區別:

  • 分類:這張圖是什麼(單標籤)
  • 檢測:圖中有什麼,在哪裡(多標籤 + 位置)

這是「計算機視覺」的基石任務—— 從「看到」到「識別」的關鍵一步。

相關AI領域

探索更多AI詞彙

查看所有分類,繼續學習AI知識