訓練集

Training Set

用於訓練模型的數據子集

詳細解釋

用於訓練機器學習模型的數據集合,模型從中學習模式和關係。與驗證集(調參)和測試集(最終評估)相對。

劃分原則:

  • 訓練集(70-80%):模型學習參數
  • 驗證集(10-15%):調整超參數,早停
  • 測試集(10-15%):最終性能評估,只用一次

關鍵要求:

  • 代表性:應反映真實數據分布
  • 獨立性:樣本間無不當重疊(如同一人的多張照片分到不同集)
  • 充足性:足夠大以學習複雜模式
  • 無洩漏:測試集信息不能出現在訓練中(數據洩漏)

數據質量維度:

  • 準確性:標籤正確
  • 完整性:缺失值處理
  • 一致性:格式統一
  • 平衡性:各類別樣本數合理

擴充技術:

  • 數據增強:旋轉、裁剪、噪聲(圖像);同義詞替換(文本)
  • 合成數據:GAN、仿真環境生成
  • 遷移學習:預訓練模型減少所需訓練數據

挑戰:

  • 偏見:訓練數據的社會偏見被模型學習
  • 版權:使用網絡抓取數據的法律風險
  • 標註成本:高質量標註昂貴耗時
  • 數據漂移:真實分布變化導致模型過時

現代 LLM:

  • 訓練數據達 T(萬億)token 級別
  • Common Crawl、書籍、維基百科、代碼、對話
  • 數據質量比數量更重要(策展 > 無差別抓取)

這是機器學習的基礎—— 數據質量決定模型上限,算法只是接近這個上限。

探索更多AI詞彙

查看所有分類,繼續學習AI知識