模型反演

Model Inversion

從模型推斷訓練數據

詳細解釋

模型反演攻擊(Model Inversion Attack)是從模型預測重建訓練數據敏感屬性的隱私攻擊,可恢復人臉圖像、醫療記錄等,是模型隱私的重大威脅。

原理:

  • 優化輸入:找到產生特定輸出的輸入
  • 梯度上升:基於模型梯度
  • 重建:從預測反推特徵

攻擊類型:

  • 白盒:知道模型參數
  • 黑盒:只能查詢
  • 有輔助信息:知道部分信息

風險:

  • 人臉識別:重建訓練人臉
  • 醫療診斷:恢復病患特徵
  • 語音識別:重建聲紋

示例:

  • 知道姓名和分類器
  • 重建該人的人臉圖像
  • 相似度足以識別

防禦:

  • 差分隱私:訓練時加噪聲
  • 輸出限制:減少信息量
  • 模型壓縮:減少信息保留
  • 提前停止:減少過擬合

挑戰:

  • 與可用性權衡
  • 量化風險
  • 檢測攻擊

模型反演是嚴重的隱私威脅,需要主動防禦。

探索更多AI詞彙

查看所有分類,繼續學習AI知識