詳細解釋
用於訓練機器學習模型的數據集合,模型從中學習模式和關係。與驗證集(調參)和測試集(最終評估)相對。
劃分原則:
- 訓練集(70-80%):模型學習參數
- 驗證集(10-15%):調整超參數,早停
- 測試集(10-15%):最終性能評估,只用一次
關鍵要求:
- 代表性:應反映真實數據分布
- 獨立性:樣本間無不當重疊(如同一人的多張照片分到不同集)
- 充足性:足夠大以學習複雜模式
- 無洩漏:測試集信息不能出現在訓練中(數據洩漏)
數據質量維度:
- 準確性:標籤正確
- 完整性:缺失值處理
- 一致性:格式統一
- 平衡性:各類別樣本數合理
擴充技術:
- 數據增強:旋轉、裁剪、噪聲(圖像);同義詞替換(文本)
- 合成數據:GAN、仿真環境生成
- 遷移學習:預訓練模型減少所需訓練數據
挑戰:
- 偏見:訓練數據的社會偏見被模型學習
- 版權:使用網絡抓取數據的法律風險
- 標註成本:高質量標註昂貴耗時
- 數據漂移:真實分布變化導致模型過時
現代 LLM:
- 訓練數據達 T(萬億)token 級別
- Common Crawl、書籍、維基百科、代碼、對話
- 數據質量比數量更重要(策展 > 無差別抓取)
這是機器學習的基礎—— 數據質量決定模型上限,算法只是接近這個上限。