詳細解釋
自動化從網站、API 或文檔中提取數據的技術,是 AI 訓練數據的重要來源,但也涉及法律和倫理爭議。
技術方法:
- 網頁爬蟲:模擬瀏覽器行為,抓取 HTML 並解析(BeautifulSoup、Scrapy、Selenium)
- API 濫用:逆向工程或使用未公開 API 批量獲取數據
- PDF/文檔解析:提取結構化表格、段落、圖像
- 頭部less 瀏覽器:Puppeteer、Playwright 執行 JavaScript 渲染的動態頁面
在 AI 中的角色:
- 預訓練數據:Common Crawl(網頁快照)、GitHub、arXiv、書籍掃描
- 微調數據:從 StackOverflow、Reddit、論壇抓取問答對
- 對齊數據:從客服記錄、教學視頻提取人類偏好
法律風險:
- 版權:抓取書籍、新聞、圖片可能侵犯版權
- 服務條款:違反網站的 ToS(如 Twitter、LinkedIn 明確禁止)
- 隱私:抓取個人信息(郵箱、電話)違反 GDPR 等法規
- 競爭法:hiQ Labs 訴 LinkedIn 案確立了「公開數據可抓取」原則,但邊界模糊
防禦與反制:
- robots.txt、rate limiting、CAPTCHA、Cloudflare
- 法律訴訟:OpenAI、Anthropic 面臨多起家訴
- 技術對抗:網站動態加載、混淆內容
趨勢:隨著 AI 公司面臨訴訟和「數據耗盡」,正向「授權採購」(如與 Reddit、Shutterstock 達成協議)和「合成數據」轉移。