網頁抓取優先策略也稱為“頁面選擇問題”,通常是盡可能地首先抓取重要的網頁,這樣保證在有限的資源內盡可能地照顧到那些重要性高的網頁。重要性度量由鏈接歡迎度、鏈接重要度和平均鏈接深度三方面決定。
1.鏈接歡迎度
鏈接歡迎度主要由反向鏈接(Backlinks)的數目和質量決定。對于數目,一個網頁有越多的鏈接指向它(反向鏈接數多),那么表示其他網頁對其的認可度就越高,同時這個網頁被訪問的機會就大。這樣推測出網頁的重要性也就越高。對于質量,這個網頁如果被很多重要性高的網頁所指向,那么其重要性也就越高。如果不考慮質量,就會出現局部最優,而不是全局最優的問題。最典型的就是作弊網頁,人為地在一些網頁中設置了大量反向鏈接指向其自身的網頁,以提高該網頁的重要性。如果不考慮鏈接質量,就會被這些作弊者所利用。
2.鏈接重要度
鏈接重要度:是一個關于URL字符串的函數,考查的是字符串本身。鏈接重要度主要通過一些模式來確認,如認為包含.com或者home的URL重要度高,以及具有較少斜杠的URL重要度高等。
3.平均鏈接深度
平均鏈接深度為,表示在一個種子站點集合中,每個種子站點如果存在一條鏈路(廣度優先遍歷規則)到達該網頁,那么平均鏈接深度就是一個重要性指標。因為距離種子站點越近,說明被訪問的機會越多,因此重要性越高。可以認為種子站點是那些重要性最高的網頁,離種子站點越遠,重要性越低。事實上,按照廣度優先的遍歷規則即可滿足這種重要性高的網頁被優先抓取的需要。
下一篇 PHP學習筆記運算符優先級