詳細解釋
停用詞(Stopwords)是語言中常見但資訊含量低的詞,NLP預處理時常移除以減少噪聲、提高效率。
常見停用詞:
- 中文:的、是、了、在、和、為、有
- 英文:the、is、at、which、on
- 語助詞:啊、呢、吧、嗎
為何移除:
- 降維:減少特徵空間
- 降噪:這些詞對語義貢獻小
- 效率:加快處理速度
- 聚焦:關注內容詞
何時保留:
- 情感分析:「不」是停用詞但含否定意義
- 語言學研究:分析語法結構
- 問答系統:「誰」「什麼」是疑問詞
- 神經網絡:現代NLP通常不移除
現代趨勢:
- 深度學習:Transformer架構 (變換器 / 注意力模型) (Switch Transformer)通常保留所有詞
- 上下文理解:模型自動學習重要性
- 預訓練:BERT (雙向編碼器表示)等使用完整文本
傳統方法(TF-IDF、詞袋)仍需停用詞表。