詳細解釋
文本分類(Text Classification)是將文本自動歸類到預定義類別的NLP任務,廣泛應用於內容審核、垃圾郵件檢測和主題分類。
分類類型:
- 二元分類:是/否(垃圾郵件檢測)
- 多分類:選擇一個類別(主題分類)
- 多標籤:可歸多個類別(新聞標籤)
- 層級分類:類別有層級關係
應用場景:
- 垃圾郵件:檢測垃圾郵件和釣魚郵件
- 情感分析:正面/負面/中性
- 主題分類:新聞歸類(體育、科技等)
- 內容審核:檢測違規內容
- 意圖識別:客服對話分類
- 語言檢測:識別文本語言
技術演進:
- 傳統:TF-IDF + SVM/朴素貝葉斯
- 深度學習:卷積神經網絡 (CNN)、循環神經網絡 (RNN)文本分類
- 預訓練模型:BERT (雙向編碼器表示)微調
- LLM時代:大型語言模型 (大語言模型 / 大模型)零樣本分類
評估指標:
- 準確率:整體分類正確率
- 精確率/召回率:權衡誤報和漏報
- F1分數:綜合衡量
實現工具:Scikit-learn、Hugging Face Transformers、OpenAI API。