近我聽到一些聰明 人士要求搜索引擎提供一種方法來驗證一個抓取機器人是正宗的。畢竟,任何垃圾制造者都可以用Googlebot來命名他們的抓取機器人,并聲稱自己是Google的。那么,你應該信任哪些抓取機器人,又應該阻截哪些?
我們聽到最普遍的要求是把Googlebot的IP地址列表公布給大家。這個做法的問題是,如果/當我們的抓取工具的IP地址范圍改變時,并非每個人都知 道去檢查。事實上,爬行組幾年前搬遷過Googlebot的IP地址,他們遇到的一個真正的麻煩是提醒一些把Googlebot的IP范圍寫在他們的程序 里的網管們。所以爬行組的成員們提供了另一種方法來驗證Googlebot。這里是爬行組成員們提供的一個答案(經他們同意在此引述) :
請告訴網站管理員們,最好的方法看來是使用域名解析服務器(DNS)來核實每個案例。我推薦的驗證技術是做反向DNS查找,核實該名字是在googlebot.com域名內,然后使用該googlebot.com名做一個相應的正向DNS->IP的查找; 例如:
(譯者注:以下是Linux命令及執行結果)
> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
(1.66.249.66.in-addr.arpa域名指針crawl-66-249-66-1.googlebot.com)
> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
(crawl-66-249-66-1.googlebot.com的IP地址是66.249.66.1)
我認為只做反向DNS查找是不夠的,因為一個垃圾制造者可以建立反向的DNS來指向crawl-a-b-c-d.googlebot.com。
這個答案也是我們內部的技術幫助中心提供給我的,所以我認為這是一個驗證Googlebot的官方方法。為了從“官方的”Googlebot IP范圍內抓取,抓取機器人要尊重robots.txt和我們內部的主機負荷慣例,從而使Google不過分爬行您的網站。
(感謝N.和J.為此文提供的幫助,他們介紹了爬行方面涉及的東西) 。
來自:谷歌網站管理員中文博客