詳細解釋
合成數據(Synthetic Data)是人工生成而非直接從現實世界測量的數據,保留原始數據的統計特性,用於隱私保護、數據擴充和邊緣案例測試。
生成方法:
- 統計方法:
- 基於分布採樣
- 蒙特卡羅模擬
- 自舉法(Bootstrap)
- 機器學習:
- VAE:變分自編碼器
- GAN:對抗生成網絡
- 高斯混合模型
- 規則基礎:
- 領域專家規則
- 物理模擬
- 遊戲引擎
應用場景:
- 隱私保護:替代敏感真實數據
- 數據擴充:增加訓練樣本
- 邊緣案例:測試罕見情況
- 數據平衡:合成少數類
- 模擬環境:機器人、自動駕駛
挑戰:
- 保真度:與真實數據相似度
- 隱私洩漏:生成數據反推原始
- 領域差距:合成到真實遷移
- 驗證困難:無真實標籤驗證
隱私技術:
- 差分隱私生成
- 聯邦生成
- 同態加密訓練
合成數據是解決數據稀缺和隱私問題的重要工具。