Google 的目標是盡可能有效地抓取您的網(wǎng)站。如果網(wǎng)頁的內(nèi)容相同,那么,無論是抓取還是編制索引都不能有效地利用我們的資源。因為這樣會限制我們能在您的網(wǎng)站上所抓取的網(wǎng)頁數(shù)量,而且如果索引中存在重復內(nèi)容,會影響網(wǎng)頁在搜索結(jié)果中的顯示效果。如果多個網(wǎng)站通過不同的網(wǎng)址提供了相同的內(nèi)容,通常就會產(chǎn)生重復內(nèi)容,例如使用下面所示的會話 ID 或其他參數(shù):
http://www.example.com/products/women/dresses/green.htmhttp://www.example.com/products/women?category=dresses&color=greenhttp://example.com/shop/index.php?product_id=32&highlight=green+dress&cat_id=1&sessionid=123&affid=431
在此例中,所有這些網(wǎng)址都指向相同的內(nèi)容:一組綠色的女士禮服。
Google 檢測到重復內(nèi)容(例如由網(wǎng)址參數(shù)導致的變體)后,會將重復的網(wǎng)址劃分為一組,并會選出我們認為“最佳”的網(wǎng)址,以在搜索結(jié)果中表示該組網(wǎng)址。然后,我們會將該組網(wǎng)址的屬性(例如鏈接熱門程度)合并到上述具有代表性的網(wǎng)址中。將重復內(nèi)容的屬性合并到一個代表性網(wǎng)址中之后,通常就可以為用戶提供更準確的搜索結(jié)果了。
要改善該流程,我們建議您使用參數(shù)處理工具,告知 Google 您是如何處理包含特定參數(shù)的網(wǎng)址的。我們會盡量考慮這些信息;但是,在某些情況下,所提供的建議對網(wǎng)站來說可能弊大于利。
一般而言,網(wǎng)址參數(shù)分為以下兩類:
sessionid
、affiliateid
。此類參數(shù)通常用于跟蹤訪問次數(shù)和引薦來源網(wǎng)址。它們對于網(wǎng)頁的實際內(nèi)容沒有任何影響。例如,以下網(wǎng)址都指向完全相同的內(nèi)容: http://www.example.com/products/women/dresses?sessionid=12345 http://www.example.com/products/women/dresses?sessionid=34567 http://www.example.com/products/women/dresses?sessionid=34567&source=google.com
brand
、gender
、country
、sortorder
。例如,某個參數(shù)會對內(nèi)容造成如下影響: sort=price_ascending
):更改內(nèi)容的顯示順序。 t-shirt_size=XS
):過濾網(wǎng)頁上的內(nèi)容。 store=women
):確定網(wǎng)頁上顯示的一系列內(nèi)容。 lang=fr
):顯示經(jīng)過翻譯的內(nèi)容。 page=2
):顯示一篇較長列表或文章中特定的一頁。 我們建議您使用網(wǎng)址參數(shù)工具,告知 Google 您在網(wǎng)站上使用各個參數(shù)的目的,以及 Google 應如何處理包含這些參數(shù)的網(wǎng)址。
www.example.com/dresses/real.htm?productid=1202938
與 www.example.com/dresses/real.htm?productid=5853729
視為完全不同的網(wǎng)址。在選擇該選項前,請確保相關(guān)參數(shù)確實會更改網(wǎng)頁內(nèi)容;否則,Googlebot 可能會在您的網(wǎng)頁上抓取不必要的重復內(nèi)容。 www.example.com/dresses/real.htm?sort=price_high
與 www.example.com/dresses/real.htm?sort=price_low
所包含的內(nèi)容相同。使用該設置可告知 Googlebot 只抓取其中包含 sort=price_low
的網(wǎng)址(這樣可以避免抓取重復內(nèi)容)。 pricefrom
和 priceto
等參數(shù)的網(wǎng)址(例如 http://www.examples.com/search?category=shoe&brand=nike&color=red&size=5&pricefrom=10&priceto=1000
),這樣可以避免不必要地抓取已通過 http://www.examples.com/search?category=shoe&brand=nike&color=red&size=5
獲取的內(nèi)容。 單個網(wǎng)址中可能包含多個參數(shù),您可以為每個參數(shù)分別指定設置。限制性較高的設置會替換限制性較低的設置。以如下三個參數(shù)及其設置為例:
Google 會根據(jù)這些設置抓取以下網(wǎng)址:www.example.com?shopping-category=DVD-movies&sort-by=production-year&sort-order=asc
,
但不會抓取以下網(wǎng)址:www.example.com?shopping-category=shoes&sort-by=size&sort-order=asc
。這是因為上述設置告知 Google 只抓取 sort-by
參數(shù)值等于 production-year
的網(wǎng)址。由于鞋類從不按生產(chǎn)年份進行排序,因此該設置的限制性過高,會導致大量內(nèi)容未能抓取。
如果您的網(wǎng)站發(fā)布的內(nèi)容可通過多個網(wǎng)址進行訪問,那么您可以指定一個規(guī)范(首選)版本的網(wǎng)址,從而對網(wǎng)址在搜索結(jié)果中的顯示方式加以更多控制。您可以使用參數(shù)處理工具實現(xiàn)此目的,也可以在首選網(wǎng)址的 HTML 源中添加 rel="canonical"
元素,以向 Google 提供更多信息。(要使用 rel="canonical"
,您需要確保能夠修改自己網(wǎng)頁的源代碼。)有關(guān)規(guī)范化的詳細信息。請使用最適合您的選項;如果您希望萬無一失,可以同時使用兩個選項。