詳細解釋
特徵歸因(Feature Attribution)是確定輸入特徵對模型預測貢獻程度的技術,回答「為什麼模型做出這個決策」的問題。
方法類型:
- 基於梯度的方法:
- 輸入梯度:∂輸出/∂輸入,特徵敏感程度
- 集成梯度(Integrated Gradients):
- 從基線到輸入的梯度積分
- 滿足公理(Sensitivity、Implementation Invariance)
- 深度學習最常用的歸因方法
- SmoothGrad:添加噪聲平滑梯度
- 基於擾動的方法:
- LIME:局部用可解釋模型近似
- SHAP:基於博弈論的Shapley值
- 特徵的邊際貢獻
- 滿足公平性公理
- 計算成本高,有近似算法
- 基於注意力的方法:
- 注意力機制 (注意力)權重:Transformer的自注意力權重
- 缺點:注意力不一定等於重要性
- 激活最大化:
- 找到最大化某神經元激活的輸入模式
應用場景:
- 醫療診斷:哪些症狀導致診斷決定
- 金融信貸:哪些因素影響貸款審批
- 圖像分類:圖像的哪些區域對分類最重要
- NLP:哪些詞對情感分析貢獻最大
- 異常檢測:什麼導致被標記為異常
視覺化:
- 熱力圖:特徵重要性的顏色編碼
- 文本高亮:重要詞語的突出顯示
- 重要性排序:特徵貢獻列表
與特徵重要性的區別:
- 全域特徵重要性:整體數據集的特徵重要性
- 特徵歸因:單個預測的特徵貢獻
- 互補使用
挑戰:
- 歸因忠實性:是否真實反映模型行為
- 複雜交互:特徵組合的非線性效應
- 基線選擇:歸因需要參考點(黑圖像?平均圖像?)
- 認知負荷:複雜解釋用戶難以理解
工具:
- Captum(PyTorch):集成梯度、DeepLIFT、Feature Ablation
- SHAP:統一的歸因框架
- InterpretML:微軟可解釋ML工具包
- LIME:模型無關的局部解釋
特徵歸因是模型可解釋性的核心技術。