詳細解釋
命名實體識別(NER)是從文本中識別並分類實體的NLP任務,如人名、地名、組織名、時間、數量等。
識別類型:
- 人名(PER):馬斯克、愛因斯坦
- 地名(LOC):台北、紐約、長江
- 組織(ORG):Google、聯合國
- 時間(TIME):2024年、下週一
- 數量(MONEY):100萬美元、50元
技術方法:
- 規則式:詞典匹配、正則表達式
- 機器學習:CRF、HMM序列標註
- 深度學習:Transformer架構 (變換器 / 注意力模型) (Switch Transformer)、BERT (雙向編碼器表示)微調
- LLM:大型語言模型 (大語言模型 / 大模型)直接識別
標註格式:
- BIO:B-開始、I-內部、O-非實體
- BIOES:增加E-結束、S-單字
應用:
- 知識圖譜構建
- 搜索優化
- 推薦系統
- 問答系統
- 數據抽取
挑戰:
- 嵌套實體:「台灣大學醫學院」
- 新興實體:網路流行語
- 歧義:「蘋果」公司vs水果