詞袋模型

Bag of Words

忽略詞序只計詞頻的文本表示方法

詳細解釋

詞袋模型(Bag of Words)是將文本表示為詞頻向量的簡單方法,忽略詞序,只關注出現了哪些詞。

運作方式:

  1. 建立詞典:統計所有文檔的詞彙集合
  2. 向量化:每個文檔表示為詞頻向量
  3. 使用:向量可用於機器學習任務

示例:

「我喜歡AI」→ [我:1, 喜歡:1, AI:1, 討厭:0, ...]

優勢:

  • 簡單高效:易於理解和實現
  • 穩定基線:許多任務的強基線
  • 可解釋:向量的每維對應具體詞

局限:

  • 丟失語序:「狗咬人」=「人咬狗」
  • 語義盲:同義詞視為不同詞
  • 維度災難:詞典大時向量稀疏

改進:

仍用於快速原型和特徵工程。

探索更多AI詞彙

查看所有分類,繼續學習AI知識