長短期記憶網絡

LSTM

解決長期依賴問題的循環神經網絡架構

詳細解釋

Long Short-Term Memory(長短期記憶網絡),1997 年由 Hochreiter 和 Schmidhuber 提出,解決傳統 RNN 的長程依賴問題,曾是序列建模的標準架構。

核心創新:

  • 門控機制:輸入門、遺忘門、輸出門控制信息流
  • 細胞狀態:貫穿時間的「傳送帶」,減少梯度消失
  • 長程記憶:理論上可記住數百時間步的信息

架構組件:

  • 遺忘門:決定丟棄什麼歷史信息
  • 輸入門:決定存儲什麼新信息
  • 輸出門:決定輸出什麼
  • 三個門都受當前輸入和前一隱藏狀態控制

歷史地位:

  • 2014-2017:NLP、語音、時間序列的標準
  • 機器翻譯:Google Neural Machine Translation 的基礎
  • 語音識別:Siri、Alexa 早期後端
  • 文本生成:早期聊天機器人、代碼生成

與 Transformer 的對比:

  • LSTM:順序處理,無法並行,長程仍有限
  • Transformer:並行注意力,長程依賴更強
  • LSTM 被取代:2017 年後 Transformer 成為主流

當前使用:

  • 資源受限環境:比 Transformer 輕量
  • 時間序列:某些金融預測仍用 LSTM
  • 教育:理解序列模型的基礎
  • 遺留系統:許多生產系統仍運行 LSTM

變體:

  • BiLSTM:雙向,同時看過去和未來
  • Stacked LSTM:多層堆疊
  • ConvLSTM:結合卷積,用於時空數據

這是深度學習的「經典」—— 雖然被 Transformer 取代,但其門控思想影響深遠。

探索更多AI詞彙

查看所有分類,繼續學習AI知識