詳細解釋
下詞預測(Next Token Prediction)是語言模型的核心訓練任務,通過預測序列中下一個token來學習語言規律。
訓練方式:
- 給定前文,預測下一個token
- 計算預測機率與真實的交叉熵損失
- 反向傳播更新模型參數
- 海量數據反覆迭代
為何有效:
- 語言規律壓縮:學習語法、語義、常識
- 世界知識:文本中包含的事實資訊
- 推理能力:邏輯關係蘊含在語言中
- 泛化能力:遷移到各種下游任務
預測目標:
- 字級:中文、日文等無空格語言
- 子詞級:BPE、SentencePiece切分
- 字節級:處理任意Unicode字符
與人類學習的類比:
- 類似嬰兒聽力學語言
- 從統計規律到抽象理解
- 大規模產生湧現能力
是大型語言模型 (大語言模型 / 大模型)、Transformer架構 (變換器 / 注意力模型) (Switch Transformer)的基礎訓練範式。