全文內容如下:
• 攔截Googlebot 抓取功能。這是一個非常普遍的問題,通常因防火墻配置錯誤或DoS保護系統所致,有時也因站點運行的內容管理系統所致。保護系統是形成好的托管服務的重要組成部分, 通過配置來攔截異常的服務器頻繁的請求,但有時也可自動完成。然而Googlebot通常會執行比個人用戶更多的請求,所以這些保護系統也會決定攔截 Googlebot,并阻止其抓取您的網站。如需查驗此類問題,您可以使用網站管理員工具中的Googlebot抓取方式功能,并查看網站管理員工具顯示的其它抓取錯誤。
我們向那些希望更有效地控制Googlebot抓取功能并提高抓取效率的網站管理員和托管服務商提供了幾個工具:
我們就如何使用拒絕googlebot協議和配置 URL 參數來控制“Googlebot抓取方式”功能提供了詳細的幫助。
如果您擔心使用Googlebot的代理程序,我們提供了一個方法來驗證該抓取工具是否為Googlebot。
如果您想改變Googlebot抓取您的站點的頻率,您可在網站管理員工具中驗證您的網站,并且改變Googlebot的抓取速度。托管服務商也可驗證他們IP地址的所有權。
• 可用性問題。我們常見的另一類問題是當Googlebot (及用戶)試圖訪問站點時,網站無法瀏覽。這通常是由DNS問題、服務器過載引起的超時和拒絕鏈接問題、錯誤的內容分發網絡配置(CDNs)、以及很多其它類型的錯誤造成的。當Googlebot遇到這些問題時,我們將之視為網址無法訪問錯誤或抓取錯誤并在網站管理員工具中報告該錯誤。
• 無效SSL證書。 要想SSL證書對您的網站生效,必須將它們與站點名稱相匹配。常見問題包括過期的SSL證書,以及因服務器上所有網站使用同一個證書而導致的服務器錯誤配 置。在這些情況下,大部分瀏覽器會試圖警告用戶,Google則通過網站管理員工具發送一條信息來警告網站管理員。要解決這些問題,就要確保您所使用的 SSL證書對所有網站的域名以及您用戶訪問的子域名都有效。
• 通配符DNS。網站可通過配置來響應所有子域名的請求。例如,example.com的網站可以通過配置用來響應來自foo.example.com,made-up-name.example.com以及所有其它子域名的請求。
在某些情況下,這是網站管理員所希望發生的,例如一個用戶生成內容的網站可自行選擇給予每個賬戶各自的子域名。但在某些情況下,網站管理員可能不希望發生這種行為,因為這也許會引起不同的主機名將內容進行不必要的復制,還可能影響Googlebot抓取功能。
若想盡量減少通配符DNS設置中的出現的各種問題,您可以將您的網站設置成不使用它們,或者將您的服務器設置成對不存在的主機名不能成功響應,亦或拒絕連接或直接返回HTTP 404 頁面。
• 虛擬主機錯誤配置。這種問題的特征是同一個服務器上托管的多主機和/或域名總是只返回一個站點的內容。換言之,盡管服務器托管多個站點,但它不管請求內容是什么卻只返回一個站點。要診斷此問題,您需要驗證服務器是否正確地響應了HTTP 主頁面。
• 通過特定的URL托管復制內容。 很多主機基于測試/開發的目的,為您的網站提供URL。例如,如果您在托管網站example.com上托管http://a.com/,托管提供商可能 會提供如 http://a.example.com/ 或 http://example.com/~a/這樣的URL地址來作為您網站的入口。我們建議不要將這些特定的URL托管設置成可被公開訪問的狀態(通過 密碼保護它們);即便這些URL可被訪問,我們的算法通常選擇網站管理員所想要的URL地址。如果我們的算法選擇特定的URL托管,您可通過正確執行規范化技術來對我們的算法做出改動,從而選擇您首選的URL。
• 軟錯誤頁面。某些托管服務商用HTTP 200狀態碼(表示“成功”)而不是HTTP錯誤狀態碼來顯示錯誤頁面。例如,一個出現“頁面無法訪問”字樣的錯誤頁面可能會返回HTTP 200而不是404,從而造成軟404頁面;一條“網站暫時無法訪問”信息返回的可能是HTTP 200,而不是正確地返回503HTTP狀態碼。我們努力檢測軟錯誤頁面,但當我們的算法無法檢測出主機軟錯誤頁面時,這些頁面的錯誤內容可能被列入索引,導致分級或跨域選擇網址的問題。
檢測返回的狀態碼很簡單:只需采用任一一種工具,如Googlebot抓取方式,查看服務器返回的HTTP頁面。如果一個錯誤頁面返回的是HTTP 200,那么我們可以改變配置使其返回正確的HTTP錯誤狀態碼。同樣,請留意網站管理員工具軟404報告中有關抓取錯誤頁面的診斷方法。
• 內容修改和框架(frames)。 網站管理員可能驚訝于看到頁面內容被托管服務商修改,尤其是在頁面插入腳本或圖片。除此之外,主機還可能通過使用frames或iframe將內容嵌入其 它頁面來托管內容。如果想查看主機是否以您意料之外的方式修改您的內容,只需查看主機托管頁面的源代碼,并將其與您上傳的代碼進行比較。
請注意某些服務器端代碼的修改可能非常有用。例如,一個使用Google Apache加速模塊或其它工具的服務器可能會壓縮代碼來優化頁面載入速度。
• 垃圾信息和惡意軟件。 我們經常看見有部分主機和大量子域名服務成為惡意軟件和垃圾郵件的主要來源,鑒于此,我們進行一些細微的操作來保護用戶和提高搜索質量,但如果我們發現特 定的主機上絕大部分站點發送垃圾信息或傳播惡意軟件時,我們就不得不對整個主機采取行動。為幫您控制惡意軟件,我們提供:
o 適用于托管服務商的網絡管理員安全瀏覽警報
o 適用于個人網站的管理員工具的惡意軟件通知
o 適用于開發人員的安全瀏覽API