詳細解釋
對抗魯棒性(Adversarial Robustness)是模型抵抗對抗樣本攻擊的能力,對抗樣本是精心設計的微小擾動,能欺騙模型產生錯誤預測,是深度學習安全的關鍵挑戰。
對抗樣本:
- 微小擾動:人眼不可察覺
- 模型特異性:針對特定模型
- 遷移性:攻擊其他模型
- 普遍性:幾乎所有模型都脆弱
攻擊類型:
- 白盒:知道模型參數
- 黑盒:只能查詢
- 目標攻擊:誤導到特定類別
- 無目標攻擊:只要錯誤
防禦方法:
- 對抗訓練:訓練中加入對抗樣本
- 正則化:輸入梯度懲罰
- 檢測:識別對抗樣本
- 預處理:去噪、壓縮
- 認證防禦:理論保證
挑戰:
- 攻防競賽:新防禦很快被攻破
- 計算成本:對抗訓練昂貴
- 性能權衡:魯棒性vs準確率
- 可遷移性:難以防禦
應用:
- 自動駕駛:交通標識安全
- 人臉識別:防欺騙
- 金融:防欺詐對抗
- 醫療:診斷可靠性
對抗魯棒性是高風險AI應用的必需考量。