TF-IDF

TF-IDF

詞頻-逆向文件頻率的文本特徵權重方法

詳細解釋

TF-IDF(Term Frequency-Inverse Document Frequency)是經典的文本特徵權重計算方法,衡量詞語對文檔的重要性。

計算公式:

  • TF(詞頻):詞在文檔中出現次數 / 總詞數
  • IDF(逆文檔頻率):log(總文檔數 / 含該詞文檔數)
  • TF-IDF = TF × IDF

核心思想:

  • 高頻詞在本文檔中重要(高TF)
  • 常見於所有文檔的詞不重要(低IDF)
  • 例如「的」高TF但低IDF,「量子」高TF高IDF

應用:

  • 資訊檢索:文檔相關性排序
  • 文本分類:特徵提取
  • 關鍵詞提取:找出文檔主題詞
  • 詞袋模型的加權改進

局限:

仍用於傳統搜索和基線比較。

探索更多AI詞彙

查看所有分類,繼續學習AI知識