下詞預測

Next-token Prediction

預測序列中下一個token的訓練目標

詳細解釋

下詞預測(Next Token Prediction)是語言模型的核心訓練任務,通過預測序列中下一個token來學習語言規律。

訓練方式:

  • 給定前文,預測下一個token
  • 計算預測機率與真實的交叉熵損失
  • 反向傳播更新模型參數
  • 海量數據反覆迭代

為何有效:

  • 語言規律壓縮:學習語法、語義、常識
  • 世界知識:文本中包含的事實資訊
  • 推理能力:邏輯關係蘊含在語言中
  • 泛化能力:遷移到各種下游任務

預測目標:

  • 字級:中文、日文等無空格語言
  • 子詞級:BPE、SentencePiece切分
  • 字節級:處理任意Unicode字符

與人類學習的類比:

  • 類似嬰兒聽力學語言
  • 從統計規律到抽象理解
  • 大規模產生湧現能力

大型語言模型 (大語言模型 / 大模型)Transformer架構 (變換器 / 注意力模型) (Switch Transformer)的基礎訓練範式。

探索更多AI詞彙

查看所有分類,繼續學習AI知識