怎么寫robots.txt文件?站長必學知識
來源:程序員人生 發(fā)布時間:2014-02-14 07:58:51 閱讀次數(shù):3159次
robots.txt是個很簡單的文本文件,您只要標明“誰不能訪問哪些鏈接”即可。
在文件的第一行寫:
User-Agent: YodaoBot
這就告訴了爬蟲下面的描述是針對名叫YodaoBot的爬蟲。您還可以寫:
User-Agent: *
這就意味著向所有的爬蟲開放。需要注意的是一個robots.txt文件里只能有一個"User-Agent: *"。
接下來是不希望被訪問的鏈接前綴。例如:
Disallow: /private
這就告訴爬蟲不要抓取以"/private"開頭的所有鏈接。包括/private.html,/private/some.html,/private/some/haha.html。如果您寫成:
Disallow: /
則表明整個站點都不希望被訪問。您也可以分多行來指定不希望被抓取的鏈接前綴,例如:
Disallow: /tmp
Disallow: /disallow
那么所有以"/tmp"和"/disallow"開頭的鏈接都不會被訪問了。
最后形成的robots.txt文件如下:
User-Agent: YodaoBot
Disallow: /tmp
Disallow: /private
請注意,如果您的robots.txt文件里有中文等非英語字符,請確定該文件是由UTF-8編碼編寫。
生活不易,碼農(nóng)辛苦
如果您覺得本網(wǎng)站對您的學習有所幫助,可以手機掃描二維碼進行捐贈