停用詞

Stopwords

預處理時通常移除的常見無實義詞

詳細解釋

停用詞(Stopwords)是語言中常見但資訊含量低的詞,NLP預處理時常移除以減少噪聲、提高效率。

常見停用詞:

  • 中文:的、是、了、在、和、為、有
  • 英文:the、is、at、which、on
  • 語助詞:啊、呢、吧、嗎

為何移除:

  • 降維:減少特徵空間
  • 降噪:這些詞對語義貢獻小
  • 效率:加快處理速度
  • 聚焦:關注內容詞

何時保留:

  • 情感分析:「不」是停用詞但含否定意義
  • 語言學研究:分析語法結構
  • 問答系統:「誰」「什麼」是疑問詞
  • 神經網絡:現代NLP通常不移除

現代趨勢:

傳統方法(TF-IDF、詞袋)仍需停用詞表。

探索更多AI詞彙

查看所有分類,繼續學習AI知識