您當前位置：首頁 > web前端 > 網絡優化 > 通過WEB日志文件分析搜索蜘蛛爬行記錄

通過WEB日志文件分析搜索蜘蛛爬行記錄

來源：程序員人生發布時間：2014-02-25 10:34:57 閱讀次數：3194次

　　一、網站日志文件在哪里?

　　【簡單說下網站虛擬主機FTP幾個文件夾說明】

　　虛擬主機開通成功之后，會在您的FTP里面自動生成4個文件夾，分別是："databases","logofiles"，"others","wwwroot",他們作用如下：

　　1、wwwroot文件夾：該文件夾內存放可以通過web訪問的文件，您需要將您對外發布的網站文件上傳到該目錄下，輸入域名訪問到的文件將是該文件夾下的文件。

　　2、databases文件夾：該文件夾同logofiles、others文件夾一樣，屬于不可通過web訪問的文件夾，即用戶無法通過輸入網址來訪問這些文件夾下的文件，您可以在這些文件夾下上傳一些不希望別人能夠訪問的文件。比如您可以將access數據庫存放在databases文件夾下，這樣可以最大化的保證您的數據庫安全。

　　3、logofiles文件夾：logofiles文件夾是日志文件，該文件夾存放您的網站日志文件。通過日志文件您可以查詢到網站的一些訪問記錄。(由于各個空間商的不同，本文件夾的命名也有少許差別有都命為：logofiles或者WEBLOG反正一般都會帶上LOG這一個字母)

　　4、others文件夾：該站點存放您自定義的IIS錯誤文件。IIS默認的一些錯誤提示，比如404錯誤，403錯誤，500錯誤等等，如果您覺得這些錯誤提示不夠個性化，您可以將您自定義的錯誤提示上傳到該目錄下。

　　二、怎樣分析網站日志文件分析舉例說明

　　下面已IBM筆記本電腦論壇http://www.ebenben.com最近8月份的日志文件為例說明一下，空間日志代碼如下：

　　2009-08-23 16:06:03 W3SVC176 58.61.160.170 GET /nb/html/30/t-12730.html - 80 - 220.181.7.24 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0 20006

　　1、首先以百度為例，分析說明：

　　訪問時間：2009-08-23 16:06:03

　　百度蜘蛛的IP：58.61.160.170

　　蜘蛛爬這的網址： /nb/html/30/t-12730.html

　　合來起所表達的意思很明顯：IP為58.61.160.170的百度蜘蛛在2009-08-23 16:06:03點43分對此網站上的/nb/html/30/t-12730.html 網頁進行收錄或更新了。

　　【補充說明】

　　2009-08-23 16:06:03是百度蜘蛛來訪的日期及時間;

　　158.61.160.170 是百度蜘蛛的IP

　　“GET 是服務器的動作，不是GET就是POSP;GET是從服務器上獲取內容;/nb/html/30/t-12730.html 使用HTML1.1協議獲取相關內容200 是返回狀態碼，200是成功獲取;404是文件沒找到;401是需要密碼，403禁止查看，500服務器錯誤。很明顯此例子中最后返回是200，為成功獲取!

　　“+(+http://www.baidu.com/search/spider.htm)″表示來路

　　當然，還有部分空間日志會有這樣一些代碼，他們表示意思如下：

　　“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)” 表示的是用戶所使用的電腦是與Netscape兼容的Mozilla瀏覽器，Windows NT操作系統，瀏覽器是IE6.0，裝有Alexa Toolbar。

　　2、接下來說說googlebot，我盼googlebot已經好久了，這幾天它終于來了，然后我在www.google.com上輸入site:seo.9ilp.com，果然看到了收錄文件的更新。

　　2009-08-23 00:07:20 66.249.65.116 - 218.85.132.68 80 GET /html/down/20070129/550.html - 200 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html)

　　218.85.132.68查此IP直接給了結果“美國 GoogleBot 搜尋引擎機器人”，呵呵，goolgebot真出名，也很規范。

　　3、Yahoo也要說說的：

　　2009-08-23 00:04:45 202.160.178.195 - 218.85.132.68 80 GET /html/ad/20070131/658.html - 200 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html)

　　查IP得知是雅虎中國，Yahoo!+Slurp+China是雅虎蜘蛛名，以前是Inktomi Slurp;想查詢網站在yahoo的收錄情況與google和百度不同的是，你直接在www.yahoo.com.cn上輸入網址即可。不用加前綴site:，還有一點，覺得這幾個月的雅虎中國在技術上有改進，在網站收錄和關鍵詞搜索上，大家可以自己去體會。

　　說完三大搜索爬蟲，再來看看別的二流搜索引擎的爬蟲及門戶搜索的爬蟲：

　　1)msn:　msn(msn live search beta)的搜索技術我個人覺得是難入流的，似乎比門戶搜索更差，beta說明搜索版在測試階段，現在電信采用msn的搜索技術，不知道電信的是什么眼光，呵呵。

　　2009-08-23 08:22:15 65.55.213.7 - 218.85.132.68 80 GET /html/down/20070129/550.html - 200 msnbot-media/1.0+(+http://search.msn.com/msnbot.htm)

　　2)Alexa：大名鼎鼎的世界排名Alexa，它的蜘蛛比較難記，是ia_archiver。從嚴格意義上說，它不知道是不是爬蟲，它與純搜索引擎不同，是來偵測流量的居多，并不是來收錄網頁的。

　　2009-08-23 01:24:44 209.237.238.226 - 218.85.132.68 80 GET /html/internet/20070130/631.html - 200 ia_archiver

　　3)Iask愛問：

　　2009-08-23 11:56:47 60.28.164.44 - 218.85.132.68 80 GET /html/webpromote/20070203/935.html - 200 Mozilla/5.0+(compatible;+iaskspider/1.0;+MSIE+6.0)

　　4)sogou搜狗：

　　對于搜狗，我就覺得好笑了。大家記得我說過我的網站是改版過的，Brand是舊網站文件，早被我刪除了。而且為了刪除除搜索引擎收錄的死鏈接，我在robots.txt文件中寫著：Disallow: /Brand ，這當然禁止訪問Brand下的文件，我這里想說的是，一、它sogou不遵守robots協議，二、對于已經刪除近一個月的文件，它從哪里搜索而來。我真的不太明白了。

　　2009-08-23 01:34:42 220.181.19.170 - 218.85.132.68 80 GET /404.htm 404;/underwear/Brand/Brand2.htm 200 sogou+spider

　　5)yodaoice:

　　對于這個，大家不要感覺驚訝，這是163新開發的搜索引擎，目前處于測試版，界面頗象google風格，但技術年幼，也象搜狗一樣亂抓一通。2009-08-23 06:19:29 60.191.80.151 - 218.85.132.68 80 GET /404.htm 404;/underwear/4864.gif 200 yodaoice

　　那么多爬蟲盯上我的網站，一方面高興的是就愛SEO論壇的發展還得靠它們，另一方面郁悶的是有些不按規則來抓的對網站的訪問會有造成不良的影響。看看比前兩周增長得多的日志文件就知道了。

　　就愛SEO學習論壇本貼鏈接地址：http://seo.9ilp.com/thread-965-1-1.html

生活不易，碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生

------分隔線----------------------------

上一篇 利用shutdown命令實現遠程關機的方法

下一篇 CSS實現列表圓角效果[兼容ie/firefox]

分享到:

------分隔線----------------------------

為碼而活

積分：4237

15粉絲

7關注

欄目熱點

多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

通過WEB日志文件 分析搜索蜘蛛爬行記錄

通過WEB日志文件分析搜索蜘蛛爬行記錄