跳到主要內容
SEO 地基 技術 SEO

robots.txt 與 XML Sitemap

robots.txt / XML Sitemap.robots.txt.Sitemap.網站地圖.索引管理

robots.txt 控制爬蟲能爬哪些路徑,XML Sitemap 主動列出你希望被索引的網址,兩者共同管理索引範圍。

robots.txt 是網站根目錄的純文字檔,用 Disallow / Allow 指令告訴爬蟲哪些路徑「不要爬」。XML Sitemap 則是一份網址清單,主動告訴搜尋引擎「這些頁面請來爬」,並可附上 lastmod 更新時間。兩者是索引管理的基礎工具。

為什麼重要

robots.txt 設錯可能整站被封鎖或誤放垃圾頁進索引;sitemap 缺漏則讓新頁、深層頁遲遲不被發現。對大型或內部連結稀疏的網站,這兩者決定了爬蟲的效率與覆蓋率。

怎麼做

  • 別用 robots 擋要隱藏的頁:被擋的頁仍可能被索引(無摘要),要真正排除用 noindex meta。
  • Sitemap 只放正規網址:回傳 200、可索引、canonical 指向自身的頁面。
  • 大站分割 sitemap:單檔上限 5 萬筆 / 50MB,超過用 sitemap index。
  • 在 GSC 提交:提交 sitemap 並監控索引涵蓋率報告。
  • 標註 lastmod:協助爬蟲優先重抓有更新的頁。

想把「robots.txt 與 XML Sitemap」變成實際成效?

讓 TOPCLASS 幫你把 GEO、SEO 與口碑收斂成一條可執行的成長動線。