訓練數據

Training Data

用於教導AI模型學習模式的數據集

詳細解釋

訓練數據(Training Data)是用來教導機器學習 (ML)llm|大型語言模型學習特定模式的數據集。模型的能力上限很大程度上取決於訓練數據的質量和規模。

高質量訓練數據的特徵:

  • 多樣性:涵蓋各種場景和邊緣案例
  • 準確性:標註正確,錯誤率極低
  • 規模:數十億到數兆token對於LLM很重要
  • 清洗:去除pii-stripping|個人身份信息和有害內容

數據來源包括:網頁爬取、書籍、論文、程式碼、對話記錄等。

data-scarcity|數據稀缺是當前AI發展的主要瓶頸之一,因為高質量的人類生成數據正在耗盡。這催生了synthetic-data|合成數據self-supervised-learning|自監督學習等技術來擴充訓練資源。

標籤

初學友善

探索更多AI詞彙

查看所有分類,繼續學習AI知識