🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

2初級模型架構

語料庫

Corpus

用於訓練或評估的文本數據集合

詳細解釋

語料庫（Corpus）是系統收集的、用於語言研究和機器學習訓練的文本數據集合，是NLP的基礎資源。

語料庫類型：

單語：單一語言文本（如中文網頁語料）
雙語/多語：平行語料，用於翻譯
對話：聊天記錄、客服對話
專業：法律、醫療、金融領域
標註：帶詞性、實體、情感標籤

著名語料庫：

Wikipedia：多語言百科知識
Common Crawl：網頁數據
BookCorpus：書籍文本
C4：清洗後的Common Crawl
中文：百度百科、知乎、小說

品質控制：

去重：移除重複內容
清洗：移除亂碼、廣告
過濾：低品質內容
隱私：去除個人資訊

使用考量：

版權：注意使用授權
偏見：反映訓練數據的偏見
時效性：知識截止日期

是訓練大型語言模型 (大語言模型 / 大模型)的核心資源。

相關詞彙

自然語言處理 (NLP)1

讓電腦理解與生成人類語言的技術

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙