詳細解釋
對抗性攻擊(Adversarial Attack)是向輸入添加精心設計的微小擾動,使AI模型產生錯誤輸出的技術,揭示模型的脆弱性。
攻擊類型:
- 白盒攻擊:攻擊者知道模型架構和參數
- FGSM:快速梯度符號法
- PGD:投影梯度下降,迭代攻擊
- C&W:優化-based攻擊
- 黑盒攻擊:只知道模型輸入輸出
- 查詢攻擊:通過多次查詢估計梯度
- 遷移攻擊:用替代模型生成擾動
- 物理世界攻擊:
- 對抗貼紙:讓攝像頭誤識別
- 對抗眼鏡:欺騙人臉識別
擾動特性:
- 人眼不可察覺:通常L2或L∞範圍很小
- 模型高度敏感:微小變化導致錯誤預測
- 遷移性:攻擊一個模型常對其他模型也有效
- 普遍性:幾乎所有深度學習模型都脆弱
防禦方法:
- 對抗訓練:用對抗樣本訓練提高魯棒性
- 輸入淨化:檢測並去除擾動
- 認證防禦:數學保證的防禦(計算昂貴)
- 梯度掩蔽:隱藏梯度信息(有限效果)
- 隨機化:輸入或模型隨機化
應用風險:
- 自動駕駛:交通標誌誤識別
- 人臉識別:身份欺騙
- 金融欺詐:繞過風控模型
- 惡意軟體:繞過檢測系統
- 內容審核:繞過過濾器
研究意義:
- 理解模型:揭示決策邊界的非光滑性
- 改進模型:推動魯棒性研究
- 安全評估:評估模型部署風險
- AI安全:對抗性魯棒性是安全AI的一部分
與對抗樣本的關係:
- 對抗樣本:攻擊產生的樣本
- 對抗性訓練:用對抗樣本增強訓練
對抗性攻擊是AI安全研究的核心議題。