模型投毒 (Model Poisoning)

Model Poisoning (model poisoning)

透過竄改模型參數或訓練流程使模型產生惡意行為的攻擊

詳細解釋

模型投毒(Model Poisoning)指攻擊者直接竄改模型參數、權重或訓練流程,使部署後的模型在特定輸入下產生錯誤或惡意輸出(如後門、洩密)。與 數據投毒 的差異:數據投毒是污染訓練數據,模型投毒是針對模型本身或訓練流程(如聯邦學習中上傳惡意梯度)。

防護與 AI安全紅隊測試防護欄 相關;提示詞注入 則屬推論階段攻擊,與訓練階段投毒互補。

探索更多AI詞彙

查看所有分類,繼續學習AI知識