對抗性攻擊

Adversarial Attack

刻意製造使模型出錯的輸入

詳細解釋

對抗性攻擊(Adversarial Attack)是向輸入添加精心設計的微小擾動,使AI模型產生錯誤輸出的技術,揭示模型的脆弱性。

攻擊類型:

  • 白盒攻擊:攻擊者知道模型架構和參數
  • FGSM:快速梯度符號法
  • PGD:投影梯度下降,迭代攻擊
  • C&W:優化-based攻擊
  • 黑盒攻擊:只知道模型輸入輸出
  • 查詢攻擊:通過多次查詢估計梯度
  • 遷移攻擊:用替代模型生成擾動
  • 物理世界攻擊:
  • 對抗貼紙:讓攝像頭誤識別
  • 對抗眼鏡:欺騙人臉識別

擾動特性:

  • 人眼不可察覺:通常L2或L∞範圍很小
  • 模型高度敏感:微小變化導致錯誤預測
  • 遷移性:攻擊一個模型常對其他模型也有效
  • 普遍性:幾乎所有深度學習模型都脆弱

防禦方法:

  • 對抗訓練:用對抗樣本訓練提高魯棒性
  • 輸入淨化:檢測並去除擾動
  • 認證防禦:數學保證的防禦(計算昂貴)
  • 梯度掩蔽:隱藏梯度信息(有限效果)
  • 隨機化:輸入或模型隨機化

應用風險:

  • 自動駕駛:交通標誌誤識別
  • 人臉識別:身份欺騙
  • 金融欺詐:繞過風控模型
  • 惡意軟體:繞過檢測系統
  • 內容審核:繞過過濾器

研究意義:

  • 理解模型:揭示決策邊界的非光滑性
  • 改進模型:推動魯棒性研究
  • 安全評估:評估模型部署風險
  • AI安全:對抗性魯棒性是安全AI的一部分

與對抗樣本的關係:

  • 對抗樣本:攻擊產生的樣本
  • 對抗性訓練:用對抗樣本增強訓練

對抗性攻擊是AI安全研究的核心議題。

探索更多AI詞彙

查看所有分類,繼續學習AI知識