詳細解釋
門控循環單元(GRU, Gated Recurrent Unit)是LSTM的簡化版,用門控機制解決梯度消失,參數更少、計算更快。
結構組成:
- 更新門(Update Gate):控制遺忘多少舊資訊
- 重置門(Reset Gate):控制忽略多少舊資訊
- 候選狀態:新的記憶內容
- 最終狀態:更新門融合舊新狀態
與長短期記憶網絡的比較:
- GRU:2個門,無單獨細胞狀態
- LSTM:3個門,細胞狀態+隱藏狀態
- GRU參數少約25%,訓練更快
- LSTM更強大,某些任務表現更好
優勢:
- 解決長程依賴:捕捉遠距離關係
- 參數高效:比LSTM少約25%參數
- 計算快速:適合資源受限場景
應用:
- 序列建模:文本、音頻、時間序列
- 機器翻譯:編碼器-解碼器架構
- 語音識別:聲學建模
- 早期NLP:在Transformer前主流
現代地位:
- 大部分被Transformer架構 (變換器 / 注意力模型) (Switch Transformer)取代
- 但仍用於小數據、低資源場景
- 嵌入式、移動設備輕量模型