詳細解釋
TF-IDF(Term Frequency-Inverse Document Frequency)是經典的文本特徵權重計算方法,衡量詞語對文檔的重要性。
計算公式:
- TF(詞頻):詞在文檔中出現次數 / 總詞數
- IDF(逆文檔頻率):log(總文檔數 / 含該詞文檔數)
- TF-IDF = TF × IDF
核心思想:
- 高頻詞在本文檔中重要(高TF)
- 常見於所有文檔的詞不重要(低IDF)
- 例如「的」高TF但低IDF,「量子」高TF高IDF
應用:
- 資訊檢索:文檔相關性排序
- 文本分類:特徵提取
- 關鍵詞提取:找出文檔主題詞
- 詞袋模型的加權改進
局限:
- 忽略詞序和語義
- 無法處理同義詞
- 現代被嵌入向量 (嵌入 / 詞嵌入 / 向量嵌入) (Embedding Lookup)取代主要地位
仍用於傳統搜索和基線比較。