機器去學習

Machine Unlearning

刪除模型中的特定記憶

詳細解釋

讓已訓練的模型「遺忘」特定訓練數據的技術,回應數據隱私、版權和合規需求(如 GDPR 的被遺忘權)。

為何困難:

  • 深度學習:知識分散在數十億參數中,無法定位特定數據
  • 災難性遺忘:徹底重訓練昂貴;微調可能丟失無關知識
  • 驗證困難:如何證明模型確實遺忘了?

技術方法:

  • 重訓練:從頭訓練,排除要遺忘的數據(最徹底但最貴)
  • 影響減輕:降低特定樣本對參數的影響(SISA、Fisher 遺忘)
  • 梯度上升:反向訓練,增加遺忘數據的損失
  • 概念擦除:遺忘特定概念(如「某個藝術家的風格」)
  • 差分隱私:訓練時確保單個樣本影響有限

應用場景:

  • 版權移除:藝術家要求移除其作品訓練的影響
  • 隱私保護:用戶要求刪除其個人數據
  • 錯誤糾正:移除錯誤標註的訓練樣本
  • 安全:移除惡意注入的後門數據

評估指標:

  • 有效性:遺忘後模型在該數據上表現差(無法複製)
  • 保真度:其他數據的性能不下降
  • 效率:遺忘操作的速度和成本

當前狀態:

  • 研究活躍,但無完美解決方案
  • 對小模型有效,對 LLM 仍困難
  • 歐盟監管推動研究加速

這是「AI 治理」的技術基礎—— 讓模型可編輯、可糾正、可審查。

探索更多AI詞彙

查看所有分類,繼續學習AI知識