詳細解釋
N元語法(N-gram)是連續N個詞或字的序列,用於語言建模和特徵提取,捕捉局部詞序資訊。
常見類型:
- Unigram(1-gram):單個詞
- Bigram(2-gram):詞對(人工-智能)
- Trigram(3-gram):三連詞
- 字符級:用於中文分詞、拼寫檢查
應用場景:
- 語言模型:預測下一個詞的機率
- 拼寫檢查:識別不可能的詞序列
- 文本分類:作為特徵
- 機器翻譯:短語對齊
- 搜索建議:自動完成
優勢與局限:
- 優勢:簡單、計算快、捕捉局部模式
- 局限:無法捕捉長距離依賴、維度災難(N增大時組合爆炸)
平滑技術:
- 未見N-gram機率不為零
- 加一平滑、回退平滑、插值平滑
現代地位:被Transformer架構 (變換器 / 注意力模型) (Switch Transformer)取代主要地位,但仍在傳統NLP和特定場景使用。