合成數據

Synthetic Data

由AI或模擬生成的訓練數據

詳細解釋

合成數據(Synthetic Data)是人工生成而非直接從現實世界測量的數據,保留原始數據的統計特性,用於隱私保護、數據擴充和邊緣案例測試。

生成方法:

  • 統計方法:
  • 基於分布採樣
  • 蒙特卡羅模擬
  • 自舉法(Bootstrap)
  • 機器學習:
  • VAE:變分自編碼器
  • GAN:對抗生成網絡
  • 高斯混合模型
  • 規則基礎:
  • 領域專家規則
  • 物理模擬
  • 遊戲引擎

應用場景:

  • 隱私保護:替代敏感真實數據
  • 數據擴充:增加訓練樣本
  • 邊緣案例:測試罕見情況
  • 數據平衡:合成少數類
  • 模擬環境:機器人、自動駕駛

挑戰:

  • 保真度:與真實數據相似度
  • 隱私洩漏:生成數據反推原始
  • 領域差距:合成到真實遷移
  • 驗證困難:無真實標籤驗證

隱私技術:

  • 差分隱私生成
  • 聯邦生成
  • 同態加密訓練

合成數據是解決數據稀缺和隱私問題的重要工具。

探索更多AI詞彙

查看所有分類,繼續學習AI知識