詳細解釋
數據增強(Data Augmentation)是通過對現有數據進行變換生成新訓練樣本的技術,擴充數據集,提高模型泛化能力,減少過擬合。
圖像增強:
- 幾何變換:旋轉、翻轉、裁剪、縮放
- 顏色變換:亮度、對比度、飽和度
- 噪聲添加:高斯噪聲、椒鹽噪聲
- 高級:Cutout、Mixup、CutMix
文本增強:
- 同義詞替換
- 回譯(Back-translation)
- 隨機插入、刪除、交換
- EDA(Easy Data Augmentation)
- 生成式:GPT改寫
音頻增強:
- 時間拉伸、音高偏移
- 噪聲添加
- 頻譜變換
表格數據:
- SMOTE:合成少數類
- 加噪聲:特徵加小擾動
- 生成式:VAE、GAN生成
訓練時增強:
- 在線增強:每個epoch不同
- 隨機性:保持多樣性
- 可組合:多種變換組合
注意事項:
- 合理性:變換後數據仍合理
- 標籤不變:分類任務標籤保持
- 驗證集不增強:評估真實性能
數據增強是小數據集和防止過擬合的有效方法。