驗證集

Validation Set

用於調參與早停的數據子集

詳細解釋

驗證集(Validation Set)是用於模型選擇和超參數調優的數據子集,與訓練集和測試集分開,防止評估偏差和過擬合。

三個數據集:

  • 訓練集(Training Set):訓練模型參數
  • 驗證集(Validation Set):選擇超參數、早停、模型選擇
  • 測試集(測試集):最終性能評估,只用一次

為何需要驗證集:

  • 避免用測試集調參(否則測試集變成另一個訓練集)
  • 監測過擬合 (過度擬合 / 過適):訓練性能↑但驗證性能↓時停止
  • 模型選擇:比較不同架構或超參數
  • 早停(早停法):驗證損失不再改善時停止訓練

劃分比例:

  • 常見:60%訓練 / 20%驗證 / 20%測試
  • 大數據:98%訓練 / 1%驗證 / 1%測試
  • 交叉驗證:輪流使用不同子集作為驗證集

使用注意事項:

  • 預處理擬合:標準化等統計量只能從訓練集計算
  • 數據洩露:驗證集信息不能洩漏到訓練過程
  • 代表性:驗證集應與訓練集同分布
  • 類別平衡:分層抽樣保持類別比例

與測試集的區別:

  • 驗證集:開發過程中多次使用
  • 測試集:最終評估只用一次
  • 兩者都不可用於訓練

驗證集是防止過拟合和選擇最佳模型的關鍵機制。

探索更多AI詞彙

查看所有分類,繼續學習AI知識