詳細解釋
對抗樣本(Adversarial Examples)是經過精心設計的微小擾動的輸入,能夠欺騙深度學習模型,使其產生高置信度的錯誤輸出。
特性:
- 人眼不可察覺:擾動極小(如L∞範圍ε=0.03)
- 模型高度敏感:導致錯誤分類
- 遷移性:攻擊一個模型常對其他模型有效
- 普遍性:幾乎所有深度學習模型都脆弱
生成方法:
- FGSM(Fast Gradient Sign Method):
- 單步基於梯度的攻擊
- 快速但不夠強大
- PGD(Projected Gradient Descent):
- 迭代攻擊,多步更新
- 更強大,常用於對抗訓練
- C&W(Carlini & Wagner):
- 優化-based攻擊
- 通常能找到最小擾動
- 黑盒攻擊:
- 遷移攻擊:用替代模型生成
- 查詢攻擊:僅通過查詢估計梯度
為何存在:
- 高維幾何:決策邊界的高維複雜性
- 線性假設:模型的局部線性特性
- 訓練不足:數據和訓練過程的限制
防禦方法:
- 對抗訓練:將對抗樣本加入訓練集
- 認證防禦:數學保證的防禦(隨機平滑)
- 輸入淨化:去除擾動
- 檢測:識別對抗樣本並拒絕
實際風險:
- 自動駕駛:交通標誌誤識別(停止標誌被識別為限速)
- 人臉識別:身份欺騙(眼鏡框攻擊)
- 金融系統:繞過欺詐檢測
- 醫療AI:錯誤診斷
研究意義:
- 理解模型:揭示深度學習的脆弱性
- 推動魯棒性:促進更安全的AI系統
- 理論研究:機器學習理論的重要問題
與其他概念:
對抗樣本是深度學習安全性的基礎問題。