詳細解釋
SHapley Additive exPlanations 的縮寫,基於博弈論的機器學習解釋方法,量化每個特徵對預測的貢獻,被視為最嚴謹的特徵重要性度量之一。
博弈論基礎:
- 源自諾貝爾獎得主 Lloyd Shapley 的 Shapley 值
- 核心思想:特徵像玩家,預測像遊戲收益,計算每個玩家的「公平」貢獻
- 公理性質:效率性、對稱性、虛無性、可加性
計算方法:
- 窮舉所有特徵子集,計算每個特徵的邊際貢獻
- 理論複雜度 O(2^n),實際用近似算法(KernelSHAP、TreeSHAP)
- TreeSHAP:專為樹模型優化,多項式時間
輸出解讀:
- SHAP 值:正 = 推動預測向正類,負 = 推向負類,0 = 無影響
- 瀑布圖:單個預測的特徵貢獻分解
- 蜂群圖:全數據集的 SHAP 值分布
應用場景:
- 醫療:解釋為何診斷為癌症(「腫瘤大小 +2.3,年齡 +1.1」)
- 金融:解釋貸款拒絕原因(「收入不足 -2.1,信用歷史 -1.5」)
- 合規:GDPR 的「解釋權」要求
與 LIME 對比:
- SHAP:全局解釋,有博弈論保證,計算慢
- LIME:局部近似,快但不穩定
- 實踐:兩者都用,SHAP 更正式
開源:shap 庫(Python),與 scikit-learn、XGBoost、PyTorch 整合。
局限:高維數據(圖像、文本)的解釋仍困難,計算昂貴。這是「可解釋 AI」的黃金標準,但非萬能藥。