詳細解釋
主動學習(Active Learning)是機器學習的一種策略,模型主動選擇「最有價值」的樣本請求人類標註,從而用最少的標註數據達到最佳性能。
核心思想:
- 並非所有訓練樣本都同等重要
- 模型選擇對當前訓練最有幫助的樣本
- 減少標註成本同時最大化模型性能
樣本選擇策略:
- 不確定性採樣:選擇模型最不確定的樣本(置信度最低)
- 查詢委員會:多個模型分歧最大的樣本
- 期望誤差減少:選擇能最大程度減少預期誤差的樣本
- 密度加權方法:考慮樣本在特徵空間的代表性
應用場景:
- 醫療診斷:醫生標記最有疑問的病例
- 內容審核:優先審核邊界案例
- 情感分析:標記模稜兩可的評論
- 圖像分類:選擇難以辨識的圖像
優勢:
- 減少50-80%的標註工作量
- 特別適合標註成本高的領域
- 與人在迴路結合緊密
主動學習是高效構建高質量訓練數據的關鍵技術。