詳細解釋
讓已訓練的模型「遺忘」特定訓練數據的技術,回應數據隱私、版權和合規需求(如 GDPR 的被遺忘權)。
為何困難:
- 深度學習:知識分散在數十億參數中,無法定位特定數據
- 災難性遺忘:徹底重訓練昂貴;微調可能丟失無關知識
- 驗證困難:如何證明模型確實遺忘了?
技術方法:
- 重訓練:從頭訓練,排除要遺忘的數據(最徹底但最貴)
- 影響減輕:降低特定樣本對參數的影響(SISA、Fisher 遺忘)
- 梯度上升:反向訓練,增加遺忘數據的損失
- 概念擦除:遺忘特定概念(如「某個藝術家的風格」)
- 差分隱私:訓練時確保單個樣本影響有限
應用場景:
- 版權移除:藝術家要求移除其作品訓練的影響
- 隱私保護:用戶要求刪除其個人數據
- 錯誤糾正:移除錯誤標註的訓練樣本
- 安全:移除惡意注入的後門數據
評估指標:
- 有效性:遺忘後模型在該數據上表現差(無法複製)
- 保真度:其他數據的性能不下降
- 效率:遺忘操作的速度和成本
當前狀態:
- 研究活躍,但無完美解決方案
- 對小模型有效,對 LLM 仍困難
- 歐盟監管推動研究加速
這是「AI 治理」的技術基礎—— 讓模型可編輯、可糾正、可審查。