N元語法

N-gram

連續N個詞或字的序列

詳細解釋

N元語法(N-gram)是連續N個詞或字的序列,用於語言建模和特徵提取,捕捉局部詞序資訊。

常見類型:

  • Unigram(1-gram):單個詞
  • Bigram(2-gram):詞對(人工-智能)
  • Trigram(3-gram):三連詞
  • 字符級:用於中文分詞、拼寫檢查

應用場景:

  • 語言模型:預測下一個詞的機率
  • 拼寫檢查:識別不可能的詞序列
  • 文本分類:作為特徵
  • 機器翻譯:短語對齊
  • 搜索建議:自動完成

優勢與局限:

  • 優勢:簡單、計算快、捕捉局部模式
  • 局限:無法捕捉長距離依賴、維度災難(N增大時組合爆炸)

平滑技術:

  • 未見N-gram機率不為零
  • 加一平滑、回退平滑、插值平滑

現代地位:被Transformer架構 (變換器 / 注意力模型) (Switch Transformer)取代主要地位,但仍在傳統NLP和特定場景使用。

探索更多AI詞彙

查看所有分類,繼續學習AI知識