🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

4高級倫理與安全

對抗性攻擊

Adversarial Attack

刻意製造使模型出錯的輸入

詳細解釋

對抗性攻擊（Adversarial Attack）是向輸入添加精心設計的微小擾動，使AI模型產生錯誤輸出的技術，揭示模型的脆弱性。

攻擊類型：

白盒攻擊：攻擊者知道模型架構和參數
FGSM：快速梯度符號法
PGD：投影梯度下降，迭代攻擊
C&W：優化-based攻擊

黑盒攻擊：只知道模型輸入輸出
查詢攻擊：通過多次查詢估計梯度
遷移攻擊：用替代模型生成擾動

物理世界攻擊：
對抗貼紙：讓攝像頭誤識別
對抗眼鏡：欺騙人臉識別

擾動特性：

人眼不可察覺：通常L2或L∞範圍很小
模型高度敏感：微小變化導致錯誤預測
遷移性：攻擊一個模型常對其他模型也有效
普遍性：幾乎所有深度學習模型都脆弱

防禦方法：

對抗訓練：用對抗樣本訓練提高魯棒性
輸入淨化：檢測並去除擾動
認證防禦：數學保證的防禦（計算昂貴）
梯度掩蔽：隱藏梯度信息（有限效果）
隨機化：輸入或模型隨機化

應用風險：

自動駕駛：交通標誌誤識別
人臉識別：身份欺騙
金融欺詐：繞過風控模型
惡意軟體：繞過檢測系統
內容審核：繞過過濾器

研究意義：

理解模型：揭示決策邊界的非光滑性
改進模型：推動魯棒性研究
安全評估：評估模型部署風險
AI安全：對抗性魯棒性是安全AI的一部分

與對抗樣本的關係：

對抗樣本：攻擊產生的樣本
對抗性訓練：用對抗樣本增強訓練

對抗性攻擊是AI安全研究的核心議題。

相關詞彙

模型面對干擾或異常輸入仍保持正確的能力

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙