對抗樣本

Adversarial Examples

讓人眼難辨但使AI出錯的輸入

詳細解釋

對抗樣本(Adversarial Examples)是經過精心設計的微小擾動的輸入,能夠欺騙深度學習模型,使其產生高置信度的錯誤輸出。

特性:

  • 人眼不可察覺:擾動極小(如L∞範圍ε=0.03)
  • 模型高度敏感:導致錯誤分類
  • 遷移性:攻擊一個模型常對其他模型有效
  • 普遍性:幾乎所有深度學習模型都脆弱

生成方法:

  • FGSM(Fast Gradient Sign Method):
  • 單步基於梯度的攻擊
  • 快速但不夠強大
  • PGD(Projected Gradient Descent):
  • 迭代攻擊,多步更新
  • 更強大,常用於對抗訓練
  • C&W(Carlini & Wagner):
  • 優化-based攻擊
  • 通常能找到最小擾動
  • 黑盒攻擊:
  • 遷移攻擊:用替代模型生成
  • 查詢攻擊:僅通過查詢估計梯度

為何存在:

  • 高維幾何:決策邊界的高維複雜性
  • 線性假設:模型的局部線性特性
  • 訓練不足:數據和訓練過程的限制

防禦方法:

  • 對抗訓練:將對抗樣本加入訓練集
  • 認證防禦:數學保證的防禦(隨機平滑)
  • 輸入淨化:去除擾動
  • 檢測:識別對抗樣本並拒絕

實際風險:

  • 自動駕駛:交通標誌誤識別(停止標誌被識別為限速)
  • 人臉識別:身份欺騙(眼鏡框攻擊)
  • 金融系統:繞過欺詐檢測
  • 醫療AI:錯誤診斷

研究意義:

  • 理解模型:揭示深度學習的脆弱性
  • 推動魯棒性:促進更安全的AI系統
  • 理論研究:機器學習理論的重要問題

與其他概念:

對抗樣本是深度學習安全性的基礎問題。

探索更多AI詞彙

查看所有分類,繼續學習AI知識