詳細解釋
詞袋模型(Bag of Words)是將文本表示為詞頻向量的簡單方法,忽略詞序,只關注出現了哪些詞。
運作方式:
- 建立詞典:統計所有文檔的詞彙集合
- 向量化:每個文檔表示為詞頻向量
- 使用:向量可用於機器學習任務
示例:
「我喜歡AI」→ [我:1, 喜歡:1, AI:1, 討厭:0, ...]
優勢:
- 簡單高效:易於理解和實現
- 穩定基線:許多任務的強基線
- 可解釋:向量的每維對應具體詞
局限:
- 丟失語序:「狗咬人」=「人咬狗」
- 語義盲:同義詞視為不同詞
- 維度災難:詞典大時向量稀疏
改進:
- TF-IDF:加權重要詞
- N-gram:保留局部詞序
- 嵌入向量 (嵌入 / 詞嵌入 / 向量嵌入) (Embedding Lookup):現代語義表示
仍用於快速原型和特徵工程。