資料增強

Data Augmentation

透過變換擴充訓練數據的方法

詳細解釋

數據增強(Data Augmentation)是通過對現有數據進行變換生成新訓練樣本的技術,擴充數據集,提高模型泛化能力,減少過擬合。

圖像增強:

  • 幾何變換:旋轉、翻轉、裁剪、縮放
  • 顏色變換:亮度、對比度、飽和度
  • 噪聲添加:高斯噪聲、椒鹽噪聲
  • 高級:Cutout、Mixup、CutMix

文本增強:

  • 同義詞替換
  • 回譯(Back-translation)
  • 隨機插入、刪除、交換
  • EDA(Easy Data Augmentation)
  • 生成式:GPT改寫

音頻增強:

  • 時間拉伸、音高偏移
  • 噪聲添加
  • 頻譜變換

表格數據:

  • SMOTE:合成少數類
  • 加噪聲:特徵加小擾動
  • 生成式:VAE、GAN生成

訓練時增強:

  • 在線增強:每個epoch不同
  • 隨機性:保持多樣性
  • 可組合:多種變換組合

注意事項:

  • 合理性:變換後數據仍合理
  • 標籤不變:分類任務標籤保持
  • 驗證集不增強:評估真實性能

數據增強是小數據集和防止過擬合的有效方法。

探索更多AI詞彙

查看所有分類,繼續學習AI知識