robots.txt

robots.txt

放在網站根目錄、用來告訴搜尋引擎爬蟲哪些路徑可以抓、哪些應該避免的規則檔案。

詳細解釋

robots.txt 是一個放在網站根目錄的純文字檔案,檔名就叫 robots.txt,用來透過「爬蟲禮貌協議」告訴各家搜尋引擎的 爬蟲(Crawler / Spider):哪些資料夾可以進去抓取,哪些區域請不要掃描或收錄。雖然從技術上說爬蟲可以選擇不理會這些規則,但主流搜尋引擎(像 Google、Bing)都會嚴格遵守,避免佔用過多資源或誤收隱私頁面。常見用途包括:擋掉後台登入頁、測試環境、重複內容產生器等;不過也要避免不小心在正式站寫錯規則,把整個網站都設成不允許抓取,導致 SEO(搜尋引擎優化) 成效瞬間歸零。正確搭配 網站地圖(Sitemap) 使用,可以同時告訴搜尋引擎「這裡先別來」以及「這些是我真正重要的頁面」。

探索更多AI詞彙

查看所有分類,繼續學習AI知識