數據稀缺

Data Scarcity

高品質訓練數據供不應求

詳細解釋

高質量訓練數據逐漸耗盡的現象,被認為是 LLM 發展的潛在瓶頸。預計 2024-2026 年,高質量文本數據將被用完。

數據來源現狀:

  • 已使用:維基百科、書籍、學術論文、Common Crawl(網頁抓取)、代碼(GitHub)
  • 估算:GPT-4 訓練約用 13T tokens,人類一生產生的高質量文本約 100T tokens
  • 問題:大部分網頁內容是低質量(SEO 農場、垃圾信息、重複)

解決方向:

  • 合成數據:用 AI 生成訓練數據(自我對弈、教師-學生模型)
  • 多模態數據:轉向圖像、視頻、音頻(數據量更大)
  • 數據效率:在更少數據上訓練更好模型(數據策展、課程學習)
  • 隱私數據:利用企業內部數據(需解決隱私和合規)
  • 物理世界數據:傳感器、機器人交互數據

爭議:

  • 悲觀派:數據瓶頸將限制 AI 進步,需等待新數據源(如大規模機器人部署)
  • 樂觀派:現有數據未充分利用(更好的清洗、多 epoch 訓練)、合成數據可替代
  • 懷疑派:認為「數據用完」是炒作,互聯網內容無限,只是獲取成本問題

商業影響:

  • 數據標註公司(Scale AI、Surge AI)價值上升
  • 合成數據公司(如 Mostly AI)獲投資
  • 版權談判:AI 公司願意付費獲取高質量數據(如與 Reddit、Shutterstock 交易)

這是 AI 發展的「資源約束」首次顯現—— 算力可以買,但好數據有限。

探索更多AI詞彙

查看所有分類,繼續學習AI知識