詳細解釋
半監督式學習(Semi-supervised Learning)是介於監督式和非監督式學習之間的機器學習方法,利用少量標記數據和大量未標記數據來訓練模型。
為何重要:
- 標記數據昂貴且耗時(需要人工標註)
- 未標記數據通常大量且容易獲取
- 結合兩者可以提高模型性能同時降低成本
核心方法:
- 自我訓練(Self-training):模型對未標記數據進行預測,高置信度的預測作為偽標籤
- 協同訓練(Co-training):多個視角的模型互相教導
- 圖方法:利用數據點之間的相似性構建圖結構進行標籤傳播
- 生成模型:學習數據的潛在分布來輔助分類
應用場景:
- 網頁分類:少量人工標記頁面,大量未標記頁面
- 醫療影像:專家標記的病例少,影像數據多
- 自然語言處理:文本分類和情感分析
- 計算機視覺:物體檢測和圖像分割