詳細解釋
注意力機制(Attention Mechanism)是神經網絡 (類神經網路)中的一種技術,讓模型能夠動態地關注輸入數據的不同部分,決定「看哪裡」和「給予多少關注」。
核心思想:
- 軟對齊:不需要固定對齊方式
- 加權求和:根據重要性給予不同權重
- 上下文感知:根據當前任務動態調整關注
在Transformer架構 (變換器 / 注意力模型) (Switch Transformer)中的應用:
- 自注意力(Self-Attention):計算序列中每對位置的關係
- 多頭注意力(Multi-Head):從不同角度同時關注
- 因果注意力:確保生成時只看前面的詞
計算過程:
- Query:當前需要查詢的內容
- Key:用於匹配的內容索引
- Value:實際要聚合的資訊
- Score計算:Q與K的相似度
重要性:
- 解決長期依賴問題
- 可解釋性:注意力權重顯示模型關注點
- 並行化:不像循環神經網絡 (RNN)需順序處理
注意力機制是現代大型語言模型 (大語言模型 / 大模型)成功的關鍵技術之一。
注意力(Attention)是神經網路中的機制:模型依當前任務動態決定「看」輸入的哪些部分、各給多少權重,再對加權後的表示做後續計算。2014–2017 年先用在機器翻譯的 encoder-decoder 對齊,Transformer架構 (變換器 / 注意力模型) (Switch Transformer) 提出自注意力(Self-Attention)後成為 大型語言模型 (大語言模型 / 大模型) 的基礎。
計算上常用 Query、Key、Value:用 Q 與 K 的相似度得到權重,再對 V 加權求和。多頭注意力則從多個子空間同時計算再合併。與 注意力機制 (注意力) 為同一概念,本條目以簡稱收錄以便搜尋;Transformer架構 (變換器 / 注意力模型) (Switch Transformer)、BERT (雙向編碼器表示)、GPT (生成式預訓練變換器) 等架構都依賴注意力。
相關AI領域
標籤
進階