詳細解釋
模型反演攻擊(Model Inversion Attack)是從模型預測重建訓練數據敏感屬性的隱私攻擊,可恢復人臉圖像、醫療記錄等,是模型隱私的重大威脅。
原理:
- 優化輸入:找到產生特定輸出的輸入
- 梯度上升:基於模型梯度
- 重建:從預測反推特徵
攻擊類型:
- 白盒:知道模型參數
- 黑盒:只能查詢
- 有輔助信息:知道部分信息
風險:
- 人臉識別:重建訓練人臉
- 醫療診斷:恢復病患特徵
- 語音識別:重建聲紋
示例:
- 知道姓名和分類器
- 重建該人的人臉圖像
- 相似度足以識別
防禦:
- 差分隱私:訓練時加噪聲
- 輸出限制:減少信息量
- 模型壓縮:減少信息保留
- 提前停止:減少過擬合
挑戰:
- 與可用性權衡
- 量化風險
- 檢測攻擊
模型反演是嚴重的隱私威脅,需要主動防禦。