資料標註

Data Labeling

為數據添加標籤的過程

詳細解釋

資料標註(Data Labeling)是為原始數據(圖像、文本、音頻等)添加標籤或註釋的過程,是監督式機器學習的基礎。

標註類型:

  • 分類標註:圖像類別、文本情感、語音內容
  • 邊界框:物體檢測中的位置和大小
  • 分割標註:像素級物體輪廓(語義分割、實例分割)
  • 關鍵點:人體姿態估計中的關節位置
  • 命名實體:文本中的專有名詞標記
  • 關係標註:實體間的關係(知識圖譜)
  • 序列標註:每個token的標籤(詞性、命名實體)

標註方法:

挑戰:

  • 成本高:佔據AI專案80%的時間和資源
  • 質量控制:標註者間的一致性(Inter-annotator Agreement)
  • 主觀性:某些標籤本質上模糊(如情感)
  • 規模:深度學習需要海量標註數據

工具和平台:

品質保證:

  • 多標註者:每個樣本由多人標註,多數決或仲裁
  • 黃金標準:已知正確答案的測試集檢測標註者質量
  • 培訓和指南:詳細的標註指南和示例

資料標註是監督學習的瓶頸和關鍵投入。

探索更多AI詞彙

查看所有分類,繼續學習AI知識