隱藏狀態

Hidden States

神經網絡中間層的表示

詳細解釋

隱藏狀態(Hidden States)是神經網絡中間層的表示,是模型處理輸入過程中的內部表示。

在Transformer中:

  • 每層輸出都是隱藏狀態
  • 形狀:[batch_size, seq_len, hidden_dim]
  • 包含豐富的語義資訊
  • 層越深,表示越抽象

應用:

  • 特徵提取:用於下游任務
  • 知識探測:分析學到了什麼
  • 控制生成:修改引導輸出
  • 可視化:理解模型行為

與嵌入的區別:

  • 嵌入(Embedding):輸入層,詞的初始表示
  • 隱藏狀態:中間層,上下文相關表示
  • 輸出層:最終預測前的表示

大型語言模型 (大語言模型 / 大模型)中的使用:

  • 最後一層隱藏狀態用於分類
  • 所有層可用於分析模型行為
  • 可提取用於高效推理(如提早退出)

可視化和分析:

  • 降維投影(t-SNE/UMAP)
  • 探針分類器:檢測編碼資訊
  • 注意力分析:看關注模式

是理解深度網絡內部工作的關鍵。

探索更多AI詞彙

查看所有分類,繼續學習AI知識