詳細解釋
語料庫(Corpus)是系統收集的、用於語言研究和機器學習訓練的文本數據集合,是NLP的基礎資源。
語料庫類型:
- 單語:單一語言文本(如中文網頁語料)
- 雙語/多語:平行語料,用於翻譯
- 對話:聊天記錄、客服對話
- 專業:法律、醫療、金融領域
- 標註:帶詞性、實體、情感標籤
著名語料庫:
- Wikipedia:多語言百科知識
- Common Crawl:網頁數據
- BookCorpus:書籍文本
- C4:清洗後的Common Crawl
- 中文:百度百科、知乎、小說
品質控制:
- 去重:移除重複內容
- 清洗:移除亂碼、廣告
- 過濾:低品質內容
- 隱私:去除個人資訊
使用考量:
- 版權:注意使用授權
- 偏見:反映訓練數據的偏見
- 時效性:知識截止日期
是訓練大型語言模型 (大語言模型 / 大模型)的核心資源。