1、Google和Baidu等搜素引擎不喜歡重復內容,尤其是重復的頁面,如果它收錄了你太多重復的頁面,它就不愛你了,后果你懂的。
2、為了減少網站內多余的重復頁面,我們可以使用robots.txt文件。
3、robots.txt是一個文本文件,放置于網站的根目錄下,搜索引擎會定期抓取這個文件,并按照這個文件內指定的規則判斷抓取哪些內容,不抓取哪些內容。
4、如果你的博客是WordPress,并且像Slyar這樣是建在二級目錄/blog下的,你仍舊需要把robots.txt文件放置于網站根目錄下,只要在文件內指定二級目錄即可。
5、不是所有的搜索引擎都支持allow語句,所以盡量不使用allow語句,全部用disallow代替。
6、搜索引擎會過濾URL中"#"(井號)后面的內容,所以錨點標記的URL你可以忽略。
7、以下是Slyar的robots.txt文件,你可以使用Google網站管理員工具里Google給出的抓取錯誤信息自己判斷哪些URL需要Disallow.
User-agent: *
Disallow: /blog/?
Disallow: /blog/*.php$
Disallow: /blog/index.php?
Disallow: /blog/wp-content/uploads
Disallow: /blog/wp-content/plugins
Disallow: /blog/wp-content/themes
Disallow: /blog/wp-includes
Disallow: /blog/wp-admin
Disallow: /blog/*/comment-page-*
Disallow: /blog/feed/
Disallow: /blog/*/feed
Disallow: /blog/*/*/feed
Disallow: /blog/page/
Disallow: /blog/author
Disallow: /blog/*/*/page/
Disallow: /blog/wap