Robots.txt是用來告訴bot的訪問權限,因Robots.txt協議并不是一個規范,而只是約定俗成的,通常大多數搜索引擎會識別這個元數據,不索引這個頁面,以及這個頁面的鏈出頁面,使用方法是將robots.txt文件放在網站根目錄下。舉例來說,當搜索引擎訪問一個網站(比如http://www.wfuwu.com)時,通常首先會檢查該網站中是否存在robots.txt這個文件,如果機器人找到這個文件,它就會根據這個文件的內容,來確定它訪問權限的范圍。閑話不扯了,進入正題:
經本人的試驗,對于一個遵守Robots.txt協議的蜘蛛,如果你修改Robots.txt過于頻繁,可直接導致將你的站“冷”處理!本人的站就已進入該黑洞了,之前百由于不想讓百度蜘蛛收錄商品列表的老頁面,就直接B了百度蜘蛛訪問此頁,過了約3天,效果果真明顯,小CO還暗喜這蜘蛛真聽話,于是乎又想到網站內之前使用的幾個頁面?,F在也用不上了,而此前已被搜索引擎收錄了N多頁,現在一起B了,于是修改了Robots.txt,這一改不要緊,兩于過去了,小CO再也高興不起來了,可愛的百度蜘蛛再也不哪么勤快了(之前每天在站內爬2萬以上),現在幾天也不到2萬,暈死。上了當就得找原因:上邊說過了,一旦B了某個頁面,蜘蛛就不索引這個頁面,以及這個頁面的鏈出頁面,偶的就中了這個獎了!很多人放出了他們自己修改的robots.txt文件,但都忽略了百度蜘蛛的爬行規律:并不是進入一個版塊后,就按照人類思維,按文章列表順序爬行的,我從自己的站點,已經證實這個問題:
比如文章列表第一篇爬完后,并不是接著爬第二篇,而是從第一個篇內容頁中的“熱點文章”等繼續爬(這就要求站內的貫通性較好!)。從DZ官站的收錄頁URL就可以看出這個點,如果隨意屏蔽/forum.php?mod=redirect* 或者/forum-redirect*這樣的路徑,可能會導致大部分網頁不被收錄。
不要用人的思維習慣來判斷蜘蛛程序的規律。很多站長放了robots.txt后,就發現百度很少收錄自己的內頁,很可能就是這個原因。所以用robots.txt文件來解決重復收錄問題,是很危險的,從程序上做根本解決才是上策!小CO是上當了。希望有?的朋友慎用robots.txt!
(站長網首發,作者http://www.tok8.cn轉載請注明出處)