詳細解釋
資料標註(Data Labeling)是為原始數據(圖像、文本、音頻等)添加標籤或註釋的過程,是監督式機器學習的基礎。
標註類型:
- 分類標註:圖像類別、文本情感、語音內容
- 邊界框:物體檢測中的位置和大小
- 分割標註:像素級物體輪廓(語義分割、實例分割)
- 關鍵點:人體姿態估計中的關節位置
- 命名實體:文本中的專有名詞標記
- 關係標註:實體間的關係(知識圖譜)
- 序列標註:每個token的標籤(詞性、命名實體)
標註方法:
- 人工標註:專家或眾包(Amazon Mechanical Turk (MTurk / 眾包標註))
- 半自動:模型預標註,人工驗證
- 主動學習:模型選擇最有價值的樣本標註
- 弱監督:使用啟發式規則或現有資源自動標註
挑戰:
- 成本高:佔據AI專案80%的時間和資源
- 質量控制:標註者間的一致性(Inter-annotator Agreement)
- 主觀性:某些標籤本質上模糊(如情感)
- 規模:深度學習需要海量標註數據
工具和平台:
- Label Studio (開源資料標註):開源多模態標註平台
- Prodigy (主動式標註):快速迭代的主動學習工具
- SageMaker (Sagemaker Ground Truth) (Amazon Sagemaker Ground Truth):AWS標註服務
- Scale AI (標註與數據平台)、Appen (資料標註與 AI 訓練資料):專業標註服務商
品質保證:
- 多標註者:每個樣本由多人標註,多數決或仲裁
- 黃金標準:已知正確答案的測試集檢測標註者質量
- 培訓和指南:詳細的標註指南和示例
資料標註是監督學習的瓶頸和關鍵投入。