數據投毒

Data Poisoning

在訓練數據中植入惡意樣本

詳細解釋

數據投毒(Data Poisoning)是攻擊者在訓練數據中注入惡意樣本,使模型在特定觸發條件下產生錯誤預測或後門行為,威脅模型完整性。

攻擊類型:

  • 可用性攻擊:
  • 降低整體性能
  • 隨機標籤翻轉
  • 完整性攻擊(後門):
  • 特定觸發器激活
  • 正常輸入正常
  • 針對性攻擊:
  • 特定樣本錯誤分類
  • 干擾特定測試樣本

後門攻擊:

  • 觸發模式:特定圖案、像素
  • 乾淨標籤:不修改標籤更隱蔽
  • 持久性:微調後仍然存在

防禦:

  • 數據驗證:清洗訓練集
  • 異常檢測:識別惡意樣本
  • 魯棒訓練:對噪聲穩定
  • 神經清洗:檢測後門
  • 剪枝:移除可疑神經元

挑戰:

  • 檢測困難:特別是乾淨標籤
  • 在線學習:持續投毒風險
  • 聯邦學習:多參與方風險

應用場景:

  • 開源數據集:不可信來源
  • 眾包標註:惡意標註者
  • 聯邦學習:惡意參與方

數據投毒是供應鏈安全的重大威脅。

探索更多AI詞彙

查看所有分類,繼續學習AI知識