3中級
機製可解釋性
Mechanistic Interpretability
透過分析 Transformer架構 (變換器 / 注意力模型) (Switch Transformer) 等模型內部計算(注意力、神經元、電路)理解其行為與表徵,偏重因果與可重現詮釋。
詳細解釋
機製可解釋性(mechanistic interpretability)不只看輸入輸出或特徵重要性,而是拆解模型內部機制:哪些注意力頭、神經元或子電路對特定行為負責,並以介入實驗驗證。常見於 Transformer架構 (變換器 / 注意力模型) (Switch Transformer)、大型語言模型 (大語言模型 / 大模型) 研究(如探討 induction head、in-context learning)。與 Transformer架構 (變換器 / 注意力模型) (Switch Transformer)、大型語言模型 (大語言模型 / 大模型)、Grad-CAM (梯度加權類別活化圖)(另一類可解釋性)相關。