詳細解釋
數據投毒(Data Poisoning)是攻擊者在訓練數據中注入惡意樣本,使模型在特定觸發條件下產生錯誤預測或後門行為,威脅模型完整性。
攻擊類型:
- 可用性攻擊:
- 降低整體性能
- 隨機標籤翻轉
- 完整性攻擊(後門):
- 特定觸發器激活
- 正常輸入正常
- 針對性攻擊:
- 特定樣本錯誤分類
- 干擾特定測試樣本
後門攻擊:
- 觸發模式:特定圖案、像素
- 乾淨標籤:不修改標籤更隱蔽
- 持久性:微調後仍然存在
防禦:
- 數據驗證:清洗訓練集
- 異常檢測:識別惡意樣本
- 魯棒訓練:對噪聲穩定
- 神經清洗:檢測後門
- 剪枝:移除可疑神經元
挑戰:
- 檢測困難:特別是乾淨標籤
- 在線學習:持續投毒風險
- 聯邦學習:多參與方風險
應用場景:
- 開源數據集:不可信來源
- 眾包標註:惡意標註者
- 聯邦學習:惡意參與方
數據投毒是供應鏈安全的重大威脅。