網站分析收集數據的方式其實有五、六種之多,我們最常見的有三種,分別是:服務器日志(Server Log)、頁面標記(Page Tag)和客戶端監測軟件收集(Client End/Desktop)。我的CWA博客(http://www.chinawebanalytics.cn)中主要講解的都是頁面標記法,今天則跟大 家講解一下服務器日志方法的原理及優缺點。
一. 服務器日志是什么
真正意義上的網站分析是從服務器日志開始的,而且直到今天,分析服務器(也稱為server log file,或簡稱log file)日志仍然是網站分析的重要方法。
這里的服務器指的是網站服務器(Web Server),而服務器日志跟飛機的黑匣子一樣,是用來記錄網站服務器的運行信息的,或者簡單說,是用來記錄服務器中的什么頁面在什么時候被誰訪問了。 例如,如果你訪問一次我的網站:http://www.chinawebanalytics.cn, 那么一般情況下,網站服務器的日志就會記錄在某時某刻來自某個IP的訪問者索引了網頁“/index.php”。當然,網站服務器日志還會記錄其他許多內 容,這些內容能夠幫助我們分析網站的流量和訪問者在網站上的行為。
下面這個圖說明了網站日志是如何產生的。當用戶訪問一個網站的時候,事實上是訪問這個網站的某一個具體的頁面,我們假設這個頁面叫Page 1。這時,我們的這個訪問行為會請求服務器中Page 1的實際的文件,隨之把這個文件下載到瀏覽器上。由于請求和下載行為都會引起服務器的響應和相應的行動,因此就有必要記錄下服務器的這些行動。
你會問,為什么需要記錄服務器的行動呢?原因很簡單,因為我們不想讓這個服務器變成“哈爾9000”(哈爾9000是庫布里克《2001太空奧德 賽》里面有了自我意識的電腦,它直接威脅到了電影中的宇航員)啊!這當然只是開玩笑,不過目的并無差別,就是能夠通過服務器日志,對服務器的運行歷史進行 記錄,這樣當有任何異常情況發生的時候,我們都能夠通過日志探尋問題發生的原因——跟記錄飛機運行狀態的黑匣子的作用十分類似。
原理看起來并不復雜,不過log file實際上并不簡單。為了讓log file具有可讀性,log file并不可以按照各個網站所有者的喜好隨意記錄的,而是有自己的規范。W3C組織定義了server log file的通用格式(如果你有興趣,可以在這里看看這些格式都是如何定義的:http://www.w3.org/Daemon/User/Config/Logging.html#common_logfile_format), 而其他一些組織或者個人又根據自己的需要額外擴展了這個格式,使log file能夠比較全面地記錄網站服務器進行的各種活動。
一條標準的web server log記錄通常包含如下信息: