詳細解釋
個人識別資訊去識別化(PII Stripping)是從數據中移除或匿名化個人識別信息(PII)的過程,保護隱私同時保留數據的分析價值。
PII類型:
- 直接識別符:姓名、身份證號、電話、郵箱、地址
- 間接識別符:
- 準識別符:郵編、生日、性別、職業
- 組合可識別:如「45歲男性,某小學校長」
- 敏感屬性:種族、宗教、健康狀況、政治觀點
去識別化技術:
- 刪除:完全移除PII字段
- 遮罩:部分隱藏(如信用卡顯示後4位)
- 泛化:降低精度(如具體生日→年份)
- 置換:打亂記錄間的識別符對應關係
- 擾動:添加噪聲(如差分隱私)
- 合成數據:合成數據生成統計相似但無真實個人的數據
匿名化標準:
- k-匿名:相同準識別符組合至少有k條記錄
- l-多樣性:敏感屬性在組內至少有l個不同值
- t-接近性:組內敏感屬性分布接近整體
重新識別風險:
- 链接攻擊:與外部數據庫聯結
- 輔助信息:攻擊者擁有的背景知識
- 案例:Netflix競賽數據被重新識別
- 去識別化不等於匿名化
在AI中的應用:
- 訓練數據:清理後用於模型訓練
- 提示處理:用戶輸入的PII移除
- 模型輸出:防止生成訓練數據中的PII
- 日誌記錄:系統日誌的PII處理
工具:
- Microsoft Presidio:PII檢測和匿名化
- Google Cloud DLP:數據去識別服務
- 開源庫:scrubadub、anonymizeip
挑戰:
- 準確檢測:識別所有PII形式(包括非結構化文本)
- 語境依賴:某些信息在某些語境是PII,某些不是
- 多語言:不同文化的PII定義
- 效用平衡:去識別化 vs 數據有用性
- 合規要求:GDPR、CCPA等法規遵循
PII去識別化是數據隱私保護的基礎步驟。