詳細解釋
為 AI 爬蟲(如 GPTBot、ChatGPT-User、Anthropic-ai)設定的訪問規則,類似傳統的 robots.txt,但專門針對 AI 訓練數據抓取。
背景:
- OpenAI、Anthropic、Google 等需要大量網絡數據訓練模型
- 網站擁有者可能不希望其內容被用於 AI 訓練(版權、競爭、隱私考量)
- 傳統 robots.txt 設計用於搜索引擎索引,非 AI 訓練
實現方式:
- 擴展 robots.txt:User-agent: GPTBot → Disallow: /
- 獨立文件:/ai.txt 或 /terms-of-use-for-ai 明確聲明使用限制
- 元標籤:<meta name="robots" content="noai, noimageai">
- HTTP 頭:X-Robots-Tag: noai
爭議與局限:
- 禮儀 vs 執行:robots.txt 是君子協定,無技術強制力
- 法律地位:未經授權抓取是否違法仍存爭議(訴訟進行中)
- 雙刃劍:拒絕 AI 訓練也可能降低內容在 AI 搜索(如 Bing Copilot)中的可見性
行業動態:
- 2023-2024 年越來越多網站(New York Times、Reddit、Twitter)限制 AI 爬蟲
- 部分選擇授權協議:與 OpenAI 達成內容授權交易(如 Axel Springer、美聯社)
- 技術對抗:Cloudflare 推出「AI 爬蟲阻止」功能,識別並封鎖 GPTBot
這是內容所有權與 AI 發展之間的拉鋸戰,法律、技術、商業模式都在快速演進。