注意力機制 (注意力)

Attention Mechanism (Self-Attention)

讓模型專注於輸入重要部分的機制

詳細解釋

注意力機制(Attention Mechanism)是神經網絡 (類神經網路)中的一種技術,讓模型能夠動態地關注輸入數據的不同部分,決定「看哪裡」和「給予多少關注」。

核心思想:

  • 軟對齊:不需要固定對齊方式
  • 加權求和:根據重要性給予不同權重
  • 上下文感知:根據當前任務動態調整關注

Transformer架構 (變換器 / 注意力模型) (Switch Transformer)中的應用:

  • 自注意力(Self-Attention):計算序列中每對位置的關係
  • 多頭注意力(Multi-Head):從不同角度同時關注
  • 因果注意力:確保生成時只看前面的詞

計算過程:

  • Query:當前需要查詢的內容
  • Key:用於匹配的內容索引
  • Value:實際要聚合的資訊
  • Score計算:Q與K的相似度

重要性:

  • 解決長期依賴問題
  • 可解釋性:注意力權重顯示模型關注點
  • 並行化:不像循環神經網絡 (RNN)需順序處理

注意力機制是現代大型語言模型 (大語言模型 / 大模型)成功的關鍵技術之一。

注意力(Attention)是神經網路中的機制:模型依當前任務動態決定「看」輸入的哪些部分、各給多少權重,再對加權後的表示做後續計算。2014–2017 年先用在機器翻譯的 encoder-decoder 對齊,Transformer架構 (變換器 / 注意力模型) (Switch Transformer) 提出自注意力(Self-Attention)後成為 大型語言模型 (大語言模型 / 大模型) 的基礎。

計算上常用 Query、Key、Value:用 Q 與 K 的相似度得到權重,再對 V 加權求和。多頭注意力則從多個子空間同時計算再合併。與 注意力機制 (注意力) 為同一概念,本條目以簡稱收錄以便搜尋;Transformer架構 (變換器 / 注意力模型) (Switch Transformer)BERT (雙向編碼器表示)GPT (生成式預訓練變換器) 等架構都依賴注意力。

相關AI領域

標籤

進階

探索更多AI詞彙

查看所有分類,繼續學習AI知識