詳細解釋
訓練數據(Training Data)是用來教導機器學習 (ML)和llm|大型語言模型學習特定模式的數據集。模型的能力上限很大程度上取決於訓練數據的質量和規模。
高質量訓練數據的特徵:
- 多樣性:涵蓋各種場景和邊緣案例
- 準確性:標註正確,錯誤率極低
- 規模:數十億到數兆token對於LLM很重要
- 清洗:去除pii-stripping|個人身份信息和有害內容
數據來源包括:網頁爬取、書籍、論文、程式碼、對話記錄等。
data-scarcity|數據稀缺是當前AI發展的主要瓶頸之一,因為高質量的人類生成數據正在耗盡。這催生了synthetic-data|合成數據和self-supervised-learning|自監督學習等技術來擴充訓練資源。
標籤
初學友善