您當前位置：首頁 > web前端 > 網絡優化 > 如何驗證谷歌 Googlebot(抓取機器人)

如何驗證谷歌 Googlebot(抓取機器人)

來源：程序員人生發布時間：2014-05-19 12:34:17 閱讀次數：2255次

　　近我聽到一些聰明人士要求搜索引擎提供一種方法來驗證一個抓取機器人是正宗的。畢竟，任何垃圾制造者都可以用Googlebot來命名他們的抓取機器人，并聲稱自己是Google的。那么，你應該信任哪些抓取機器人，又應該阻截哪些?

　　我們聽到最普遍的要求是把Googlebot的IP地址列表公布給大家。這個做法的問題是，如果/當我們的抓取工具的IP地址范圍改變時，并非每個人都知道去檢查。事實上，爬行組幾年前搬遷過Googlebot的IP地址，他們遇到的一個真正的麻煩是提醒一些把Googlebot的IP范圍寫在他們的程序里的網管們。所以爬行組的成員們提供了另一種方法來驗證Googlebot。這里是爬行組成員們提供的一個答案(經他們同意在此引述) ：

　　請告訴網站管理員們，最好的方法看來是使用域名解析服務器(DNS)來核實每個案例。我推薦的驗證技術是做反向DNS查找，核實該名字是在googlebot.com域名內，然后使用該googlebot.com名做一個相應的正向DNS->IP的查找; 例如：

　　(譯者注：以下是Linux命令及執行結果)

　　> host 66.249.66.1

　　1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

　　(1.66.249.66.in-addr.arpa域名指針crawl-66-249-66-1.googlebot.com)

　　> host crawl-66-249-66-1.googlebot.com

　　crawl-66-249-66-1.googlebot.com has address 66.249.66.1

　　(crawl-66-249-66-1.googlebot.com的IP地址是66.249.66.1)

　　我認為只做反向DNS查找是不夠的，因為一個垃圾制造者可以建立反向的DNS來指向crawl-a-b-c-d.googlebot.com。

　　這個答案也是我們內部的技術幫助中心提供給我的，所以我認為這是一個驗證Googlebot的官方方法。為了從“官方的”Googlebot IP范圍內抓取，抓取機器人要尊重robots.txt和我們內部的主機負荷慣例，從而使Google不過分爬行您的網站。

　　(感謝N.和J.為此文提供的幫助，他們介紹了爬行方面涉及的東西) 。

　　來自：谷歌網站管理員中文博客