詳細解釋
讓 AI 理解文章內容並回答問題的任務,測試機器的自然語言理解能力,從簡單事實提取到複雜推理。
數據集演進:
- SQuAD:最早的監督式閱讀理解(片段抽取)
- CNN/Daily Mail:新聞摘要式理解
- RACE:考試風格選擇題
- DROP:離散推理(數學運算)
- QuAC:多輪對話式問答
- Longformer:長文檔理解
任務類型:
- 抽取式:答案在文中(SQuAD 風格)
- 生成式:自由生成答案(更難)
- 多選:從選項中選(考試風格)
- 多跳:需跨越多個段落推理
- 否定:區分支持、反對、無關
大模型時代:
- GPT-4/Claude:幾乎達到人類水平
- 零樣本:無需專門訓練即可回答
- 長上下文:整本書的理解
- 挑戰:幻覺、事實錯誤、數值計算
應用:
- 搜索引擎:直接答案而非鏈接列表
- 客服:手冊問答
- 法律:合同條款查找
- 醫療:病歷理解
- 教育:自動評分、輔導
與 RAG 的關係:
- RAG 提供上下文,閱讀理解模型回答
- 實際是同一技術的兩個方面
這是「語言理解」的核心測試—— 從「認識字」到「理解文」。