SHAP

SHAP

特徵歸因方法

詳細解釋

SHapley Additive exPlanations 的縮寫,基於博弈論的機器學習解釋方法,量化每個特徵對預測的貢獻,被視為最嚴謹的特徵重要性度量之一。

博弈論基礎:

  • 源自諾貝爾獎得主 Lloyd Shapley 的 Shapley 值
  • 核心思想:特徵像玩家,預測像遊戲收益,計算每個玩家的「公平」貢獻
  • 公理性質:效率性、對稱性、虛無性、可加性

計算方法:

  • 窮舉所有特徵子集,計算每個特徵的邊際貢獻
  • 理論複雜度 O(2^n),實際用近似算法(KernelSHAP、TreeSHAP)
  • TreeSHAP:專為樹模型優化,多項式時間

輸出解讀:

  • SHAP 值:正 = 推動預測向正類,負 = 推向負類,0 = 無影響
  • 瀑布圖:單個預測的特徵貢獻分解
  • 蜂群圖:全數據集的 SHAP 值分布

應用場景:

  • 醫療:解釋為何診斷為癌症(「腫瘤大小 +2.3,年齡 +1.1」)
  • 金融:解釋貸款拒絕原因(「收入不足 -2.1,信用歷史 -1.5」)
  • 合規:GDPR 的「解釋權」要求

與 LIME 對比:

  • SHAP:全局解釋,有博弈論保證,計算慢
  • LIME:局部近似,快但不穩定
  • 實踐:兩者都用,SHAP 更正式

開源:shap 庫(Python),與 scikit-learn、XGBoost、PyTorch 整合。

局限:高維數據(圖像、文本)的解釋仍困難,計算昂貴。這是「可解釋 AI」的黃金標準,但非萬能藥。

探索更多AI詞彙

查看所有分類,繼續學習AI知識