特徵歸因

Feature Attribution

各特徵對預測的貢獻

詳細解釋

特徵歸因(Feature Attribution)是確定輸入特徵對模型預測貢獻程度的技術,回答「為什麼模型做出這個決策」的問題。

方法類型:

  1. 基於梯度的方法:
  • 輸入梯度:∂輸出/∂輸入,特徵敏感程度
  • 集成梯度(Integrated Gradients):
  • 從基線到輸入的梯度積分
  • 滿足公理(Sensitivity、Implementation Invariance)
  • 深度學習最常用的歸因方法
  • SmoothGrad:添加噪聲平滑梯度
  1. 基於擾動的方法:
  • LIME:局部用可解釋模型近似
  • SHAP:基於博弈論的Shapley值
  • 特徵的邊際貢獻
  • 滿足公平性公理
  • 計算成本高,有近似算法
  1. 基於注意力的方法:
  1. 激活最大化:
  • 找到最大化某神經元激活的輸入模式

應用場景:

  • 醫療診斷:哪些症狀導致診斷決定
  • 金融信貸:哪些因素影響貸款審批
  • 圖像分類:圖像的哪些區域對分類最重要
  • NLP:哪些詞對情感分析貢獻最大
  • 異常檢測:什麼導致被標記為異常

視覺化:

  • 熱力圖:特徵重要性的顏色編碼
  • 文本高亮:重要詞語的突出顯示
  • 重要性排序:特徵貢獻列表

與特徵重要性的區別:

  • 全域特徵重要性:整體數據集的特徵重要性
  • 特徵歸因:單個預測的特徵貢獻
  • 互補使用

挑戰:

  • 歸因忠實性:是否真實反映模型行為
  • 複雜交互:特徵組合的非線性效應
  • 基線選擇:歸因需要參考點(黑圖像?平均圖像?)
  • 認知負荷:複雜解釋用戶難以理解

工具:

  • Captum(PyTorch):集成梯度、DeepLIFT、Feature Ablation
  • SHAP:統一的歸因框架
  • InterpretML:微軟可解釋ML工具包
  • LIME:模型無關的局部解釋

特徵歸因是模型可解釋性的核心技術。

探索更多AI詞彙

查看所有分類,繼續學習AI知識