詳細解釋
語言建模(Language Modeling)是預測序列中下一個詞的機率分布的任務,是NLP的基礎和大型語言模型 (大語言模型 / 大模型)的核心能力。
建模方式:
- 自回歸:從左到右逐詞預測(GPT)
- 遮罩:預測被遮罩詞(BERT)
- 雙向:考慮左右上下文
評估指標:
- Perplexity 指標:越低越好
- Cross-Entropy Loss:訓練損失
- Bits Per Character:每字符位元數
應用:
- 文本生成:大型語言模型 (大語言模型 / 大模型)的基礎能力
- 語音識別:選擇最可能的詞序列
- 機器翻譯:目標語言建模
- 拼寫檢查:識別低機率詞序列
訓練數據:
- 網頁、書籍、論文、對話
- 數據量越大,模型能力越強
現代發展:
- 從統計模型(N-gram)到神經網絡(LSTM)
- 再到Transformer架構 (變換器 / 注意力模型) (Switch Transformer)大模型
- 湧現出情境學習、推理等能力