一份內容一般可通過多個URL獲得,而非全部集中在同一域名。幾年來我們把用多個URL獲得同一份內容,稱為重復內容。發現一組重復內容網頁時,Google算法會選出一個有代表性的URL。一組網頁可能包含來自相同或不同網站的URL。從一組不同的網站中選出有代表性的URL,這種選擇就被稱為跨域選擇。舉個簡單的例子,如果一組URL中一個來自a網站,一個來自b網站,我們的算法選擇了來自b網站的URL,那么a網站的URL就無法再在我們的搜索結果中顯示,并且與此內容相關的搜索流量也會下降。
網站管理員通過使用一個目前支持的機制,比如rel="canonical" elements 或 301 重定向 來指示他們的首選URL,這在很大程度上影響了我們算法的選擇結果。大多情況下,算法做出的選擇正確反映了網站管理員的意圖。但是在極少情況下,我們發現網站管理員不明白為何算法會做出此種選擇,也不知如何處理,他們認為算法的選擇是錯誤的。
為使跨域URL選擇過程更透明,我們正在發布新的有關網站管理工具的信息,試圖在我們的算法選擇了外部URL而非管理員網站的URL時對網站管理員給予提示。這些信息的工作原理細節可在關于該主題的幫助中心文章中找到,在本篇博文中我們將探討各種可能出現跨域URL選擇的情況,以及如何修復那些您認為是錯誤的情況。
引起跨域URL選擇的主要原因:
很多情況都會導致我們的算法進行跨域URL選擇。
多數情況下,網站管理員會發出能夠影響選擇結果的信號,我們的算法會根據此信號來選擇URL。例如,如果網站管理員按照我們的指南和最佳方法對網站進行遷移,這明顯表明新網站的URL才是他們希望Google選擇的。如果您正在遷移您的網站并在網站管理工具中看到這些新信息,您可以對我們算法給出的提示予以確認。
不過,我們經常看見網站管理員提交問題說我們的算法選擇的URL與他們想選擇的不同。當您的網站遇到跨域選擇,并且您認為該選擇不正確(比如選擇結果與您所預想的不符)時,您還可以運用一些策略來進行改善。這里有一些導致預料之外跨域選擇URL的常見原因,以及改善方法:
1. 重復內容,包括多域名網站上的內容:
我們常見到網站管理員在多個域名上使用同種語言和相似的內容。這有時是疏忽所致,有時是以地理區域為標準來決定顯示語言種類的。例如,在域名為.com 和.net的網站上,管理員通常會使用英語作為顯示語言,而在域名為 .de, .at,和.ch的網站則使用德語作為顯示語言。
根據網站和用戶的不同,您可以使用一種目前支持的標準化技術來提示算法您希望選擇的URL。以下是關于此主題的文章,僅供參考:
* 規范化, 尤其是 rel="canonical" elements 和 301 重定向
* 多域名及多語言網站 以及管理多區域網站
* 關于 rel="alternate" hreflang="x"
2. 配置錯誤: 一些錯誤的配置會使我們算法作出錯誤決定。出現錯誤配置的例子包括:
1.標準化錯誤:錯誤使用規范化技術指向外部網站上的URL會使我們的算法在搜索結果中選擇外部URL。我們曾在配置錯誤的內容管理系統(CMS)或網站管理安裝的CMS插件上遇到過此類問題。
要修復此類狀況,需查清您的網站是如何錯誤指示規范URL偏好的(例如:通過錯誤使用了一個rel="canonical"元素或錯誤使用了301重定向)并進行修復。
2.服務器配置錯誤:有時我們會遇到主機托管配置錯誤的情況-a網站內容被返回b網站的URL。當兩個無關的網站服務器返回相同軟 404 頁面而我們又未能發現此錯誤網頁時,以上類似狀況會再次出現。這兩種情況中,我們都會認為相同內容正從兩個不同網站返回,而我們的算法可能錯誤地將a網站的URL選做了B網站URL的規范偏好。
您需要調查網站服務基礎設施的哪部分配置有誤。例如,在遇到錯誤網頁時,您的服務器返回的可能是HTTP 200(成功)狀態代碼,也可能會混淆其托管的不同域名的要求。一旦查到問題的根本原因,您要和服務器管理員一起矯正配置進行。
3. 惡性網站攻擊:一些網站攻擊會引入導致不良標準化的代碼。例如,惡性代碼可能導致網站返回HTTP 301 重定向 或在HTML 或HTTP header中插入一個跨域rel="canonical" 鏈接元素,這通常會指向一個托管惡性內容的外部URL。該情況下,我們的算法可能選擇惡性或垃圾URL而非默認網站上的URL。
碰到這種情況,請按照我們的網站清理指南進行操作并在清理完成后遞交重新審核請求。如果想要識別cloaked攻擊,您可以使用網站管理工具中的Googlebot 抓取功能,這樣您看到的網頁內容便會和在Googlebot上看到的一樣。
極少情況下,我們的算法會未經您的允許,就選擇那些包含您網站內容的外部網站的URL。如果您認為另一網站復制了您網站上的內容,違反了版權法,請聯系網站托管主機,填寫數字千年版權法案政策申請刪除那些侵權網頁。
總之,如果您在如何認定錯誤原因或修復辦法方面需要幫助,您可以瀏覽我們關于此主題的幫助中心的文章并在我們的網站管理員幫助論壇上提問。
發表者:Pierre Far,網站管理員趨勢分析
原文:Raising awareness of cross-domain URL selections
轉載自:谷歌中文網站管理員博客
發布時間:2011年11月29日 下午 01:57:00