數據抓取

Data Scraping

從網路批量收集訓練數據

詳細解釋

自動化從網站、API 或文檔中提取數據的技術,是 AI 訓練數據的重要來源,但也涉及法律和倫理爭議。

技術方法:

  • 網頁爬蟲:模擬瀏覽器行為,抓取 HTML 並解析(BeautifulSoup、Scrapy、Selenium)
  • API 濫用:逆向工程或使用未公開 API 批量獲取數據
  • PDF/文檔解析:提取結構化表格、段落、圖像
  • 頭部less 瀏覽器:Puppeteer、Playwright 執行 JavaScript 渲染的動態頁面

在 AI 中的角色:

  • 預訓練數據:Common Crawl(網頁快照)、GitHub、arXiv、書籍掃描
  • 微調數據:從 StackOverflow、Reddit、論壇抓取問答對
  • 對齊數據:從客服記錄、教學視頻提取人類偏好

法律風險:

  • 版權:抓取書籍、新聞、圖片可能侵犯版權
  • 服務條款:違反網站的 ToS(如 Twitter、LinkedIn 明確禁止)
  • 隱私:抓取個人信息(郵箱、電話)違反 GDPR 等法規
  • 競爭法:hiQ Labs 訴 LinkedIn 案確立了「公開數據可抓取」原則,但邊界模糊

防禦與反制:

  • robots.txt、rate limiting、CAPTCHA、Cloudflare
  • 法律訴訟:OpenAI、Anthropic 面臨多起家訴
  • 技術對抗:網站動態加載、混淆內容

趨勢:隨著 AI 公司面臨訴訟和「數據耗盡」,正向「授權採購」(如與 Reddit、Shutterstock 達成協議)和「合成數據」轉移。

探索更多AI詞彙

查看所有分類,繼續學習AI知識