詳細解釋
在圖像或視頻中定位並識別物體的計算機視覺任務,輸出物體類別和邊界框坐標,是自動駕駛、監控、機器人的核心技術。
核心任務:
- 定位:預測物體的邊界框(x, y, width, height)
- 分類:判斷物體類別(人、車、狗)
- 多目標:一張圖中檢測多個物體
- 多類別:區分不同類型的物體
經典架構:
- R-CNN 系列:兩階段(先提候選區域,再分類)
- Fast R-CNN、Faster R-CNN:速度遞進
- YOLO(You Only Look Once):單階段,極速
- YOLOv1-v8:實時檢測的代名詞
- SSD:單階段多尺度檢測
- Transformers:DETR、Deformable DETR
評估指標:
- mAP(mean Average Precision):綜合精度和召回
- IoU(Intersection over Union):預測框與真實框的重疊度
- FPS:每秒處理幀數(實時性)
應用:
- 自動駕駛:車輛、行人、交通標誌檢測
- 安防:入侵檢測、異常行為
- 零售:貨架分析、自助結賬
- 醫療:病灶定位、細胞計數
- 工業:缺陷檢測、零件計數
挑戰:
- 小目標:遠處物體難以檢測
- 遮擋:物體被部分遮擋
- 尺度變化:同一物體不同大小
- 實時性:高 FPS 與高精度的權衡
與圖像分類的區別:
- 分類:這張圖是什麼(單標籤)
- 檢測:圖中有什麼,在哪裡(多標籤 + 位置)
這是「計算機視覺」的基石任務—— 從「看到」到「識別」的關鍵一步。