詳細解釋
Long Short-Term Memory(長短期記憶網絡),1997 年由 Hochreiter 和 Schmidhuber 提出,解決傳統 RNN 的長程依賴問題,曾是序列建模的標準架構。
核心創新:
- 門控機制:輸入門、遺忘門、輸出門控制信息流
- 細胞狀態:貫穿時間的「傳送帶」,減少梯度消失
- 長程記憶:理論上可記住數百時間步的信息
架構組件:
- 遺忘門:決定丟棄什麼歷史信息
- 輸入門:決定存儲什麼新信息
- 輸出門:決定輸出什麼
- 三個門都受當前輸入和前一隱藏狀態控制
歷史地位:
- 2014-2017:NLP、語音、時間序列的標準
- 機器翻譯:Google Neural Machine Translation 的基礎
- 語音識別:Siri、Alexa 早期後端
- 文本生成:早期聊天機器人、代碼生成
與 Transformer 的對比:
- LSTM:順序處理,無法並行,長程仍有限
- Transformer:並行注意力,長程依賴更強
- LSTM 被取代:2017 年後 Transformer 成為主流
當前使用:
- 資源受限環境:比 Transformer 輕量
- 時間序列:某些金融預測仍用 LSTM
- 教育:理解序列模型的基礎
- 遺留系統:許多生產系統仍運行 LSTM
變體:
- BiLSTM:雙向,同時看過去和未來
- Stacked LSTM:多層堆疊
- ConvLSTM:結合卷積,用於時空數據
這是深度學習的「經典」—— 雖然被 Transformer 取代,但其門控思想影響深遠。