詳細解釋
驗證集(Validation Set)是用於模型選擇和超參數調優的數據子集,與訓練集和測試集分開,防止評估偏差和過擬合。
三個數據集:
- 訓練集(Training Set):訓練模型參數
- 驗證集(Validation Set):選擇超參數、早停、模型選擇
- 測試集(測試集):最終性能評估,只用一次
為何需要驗證集:
- 避免用測試集調參(否則測試集變成另一個訓練集)
- 監測過擬合 (過度擬合 / 過適):訓練性能↑但驗證性能↓時停止
- 模型選擇:比較不同架構或超參數
- 早停(早停法):驗證損失不再改善時停止訓練
劃分比例:
- 常見:60%訓練 / 20%驗證 / 20%測試
- 大數據:98%訓練 / 1%驗證 / 1%測試
- 交叉驗證:輪流使用不同子集作為驗證集
使用注意事項:
- 預處理擬合:標準化等統計量只能從訓練集計算
- 數據洩露:驗證集信息不能洩漏到訓練過程
- 代表性:驗證集應與訓練集同分布
- 類別平衡:分層抽樣保持類別比例
與測試集的區別:
- 驗證集:開發過程中多次使用
- 測試集:最終評估只用一次
- 兩者都不可用於訓練
驗證集是防止過拟合和選擇最佳模型的關鍵機制。