爬取預算(Crawl Budget)指 Googlebot 在一段時間內對某網站分配的爬取資源,由「爬取速率上限」(伺服器能承受多少)與「爬取需求」(頁面有多值得爬)共同決定。對數萬頁以上的大型網站尤其關鍵。
為什麼重要
當爬蟲把有限預算浪費在重複、低價值或無限參數的網址上,真正重要的新頁與更新就會延遲被索引,甚至長期抓不到。這會直接拖慢新內容的曝光速度。
怎麼做
- 擋掉垃圾網址:用 robots.txt 阻止爬取無限篩選、排序、內部搜尋結果頁。
- 修復軟 404 與重定向鏈:減少爬蟲在無效路徑上空轉。
- 提升伺服器速度:回應越快,Google 越願意提高爬取速率。
- 整理 sitemap:只放要索引的正規網址,並用 lastmod 標示更新。
- 強化內部連結:讓重要頁面點擊深度淺、更容易被發現。