詳談robots.txt的好處與壞處
來源:程序員人生 發布時間:2014-01-22 11:44:02 閱讀次數:4034次
Robots.txt 帶來的好處:
1. 幾乎所有的搜索引擎 Spider 都遵循 robots.txt 給出的爬行規則,協議規定搜索引擎 Spider 進
入某個網站的入口即是該網站的 robots.txt,當然,前提是該網站存在此文件。對于沒有配置robots.txt 的網站,Spider 將會被重定向至 404 錯誤頁面,相關研究表明,如果網站采用了自定義的 404 錯誤頁面,那么 Spider 將會把其視作 robots.txt雖然其并非一個純粹的文本文件這將給 Spider 索引網站帶來很大的困擾,影響搜索引擎對網站頁面的收錄。
2. robots.txt 可以制止不必要的搜索引擎占用服務器的寶貴帶寬,如 email retrievers,這類搜索
引擎對大多數網站是沒有意義的;再如 image strippers,對于大多數非圖形類網站來說其也沒有太大意義,但卻耗用大量帶寬。
3. robots.txt 可以制止搜索引擎對非公開頁面的爬行與索引,如網站的后臺程序、管理程序,事實上,對于某些在運行中產生臨時頁面的網站來說,如果未配置 robots.txt,搜索引擎甚至會索引那些臨時文件。
4. 對于內容豐富、存在很多頁面的網站來說,配置 robots.txt 的意義更為重大,因為很多時候
其會遭遇到搜索引擎 Spider 給予網站的巨大壓力:洪水般的 Spider 訪問,如果不加控制,甚至會影響網站的正常訪問。
5. 同樣地,如果網站內存在重復內容,使用 robots.txt 限制部分頁面不被搜索引擎索引和收錄,可以避免網站受到搜索引擎關于 duplicate content 的懲罰,保證網站的排名不受影響。
robots.txt 帶來的風險及解決:
1. 凡事有利必有弊,robots.txt 同時也帶來了一定的風險:其也給攻擊者指明了網站的目錄結構和私密數據所在的位置。雖然在 Web 服務器的安全措施配置得當的前提下這不是一個嚴重的問題,但畢竟降低了那些不懷好意者的攻擊難度。
比如說,如果你有個網站如www.ppzxdy.cn中的私密數據通過dz目錄下的index.html 訪問,那么,在 robots.txt 的設置可能如下:
User-agent: *
Disallow: /dz/
這樣,攻擊者只需看一下 robots.txt 即可知你要隱藏的內容在哪里,在瀏覽器中輸入
http://www.ppzxdy.cn/dz 便可訪問我們不欲公開的內容。對這種情況,一般采取如下的辦法:
設置訪問權限,對/private/中的內容實施密碼保護,這樣,攻擊者便無從進入。
另一種辦法是將缺省的目錄主文件 http://www.pipiflash.com/index.html 更名為其他,比如說 abc-protect.html,同時,制作一個新的index.html 文件,內容大致為%26quot;你沒有權限訪問此頁%26quot;之類,這樣,攻擊者因不知實際的文件名而無法訪問私密內容。
2. 如果設置不對,將導致搜索引擎將索引的數據全部刪除。
User-agent: *
Disallow: /
上述代碼將禁止所有的搜索引擎索引數據。
生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈