詳細解釋
隱藏狀態(Hidden States)是神經網絡中間層的表示,是模型處理輸入過程中的內部表示。
在Transformer中:
- 每層輸出都是隱藏狀態
- 形狀:[batch_size, seq_len, hidden_dim]
- 包含豐富的語義資訊
- 層越深,表示越抽象
應用:
- 特徵提取:用於下游任務
- 知識探測:分析學到了什麼
- 控制生成:修改引導輸出
- 可視化:理解模型行為
與嵌入的區別:
- 嵌入(Embedding):輸入層,詞的初始表示
- 隱藏狀態:中間層,上下文相關表示
- 輸出層:最終預測前的表示
在大型語言模型 (大語言模型 / 大模型)中的使用:
- 最後一層隱藏狀態用於分類
- 所有層可用於分析模型行為
- 可提取用於高效推理(如提早退出)
可視化和分析:
- 降維投影(t-SNE/UMAP)
- 探針分類器:檢測編碼資訊
- 注意力分析:看關注模式
是理解深度網絡內部工作的關鍵。