語料庫

Corpus

用於訓練或評估的文本數據集合

詳細解釋

語料庫(Corpus)是系統收集的、用於語言研究和機器學習訓練的文本數據集合,是NLP的基礎資源。

語料庫類型:

  • 單語:單一語言文本(如中文網頁語料)
  • 雙語/多語:平行語料,用於翻譯
  • 對話:聊天記錄、客服對話
  • 專業:法律、醫療、金融領域
  • 標註:帶詞性、實體、情感標籤

著名語料庫:

  • Wikipedia:多語言百科知識
  • Common Crawl:網頁數據
  • BookCorpus:書籍文本
  • C4:清洗後的Common Crawl
  • 中文:百度百科、知乎、小說

品質控制:

  • 去重:移除重複內容
  • 清洗:移除亂碼、廣告
  • 過濾:低品質內容
  • 隱私:去除個人資訊

使用考量:

  • 版權:注意使用授權
  • 偏見:反映訓練數據的偏見
  • 時效性:知識截止日期

是訓練大型語言模型 (大語言模型 / 大模型)的核心資源。

探索更多AI詞彙

查看所有分類,繼續學習AI知識