PageRank算法誕生于1998年的斯坦福大學(xué),Google的創(chuàng)始人拉里·佩奇和謝爾蓋·布林發(fā)明了這項技術(shù)。
PageRank算法簡單來說就是通過網(wǎng)頁間相互的鏈接關(guān)系以確定網(wǎng)頁的重要性及等級。網(wǎng)頁A鏈向網(wǎng)頁B則為網(wǎng)頁A對網(wǎng)頁B的投票,google根據(jù)投票網(wǎng)頁和被投票網(wǎng)頁(即網(wǎng)頁A和網(wǎng)頁B)的等級來決定新的等級,一個網(wǎng)頁的PageRank值由所有鏈接它的網(wǎng)頁的重要性經(jīng)過遞歸計算得出。
簡單的PageRank算法理解:
假設(shè)有4個頁面:A,B, C 和 D。如果所有頁面都鏈向A,那么A的PR值將是B,C 及 D的和。
A = B + C + D
繼續(xù)假設(shè):B鏈接到A的同時鏈接到C,并且D鏈接到A的同時鏈接到A,B,C的3個頁面。因為B頁面的PR值是恒定的,所以B向A和C這兩個頁面?zhèn)鬟f的PR值相同,由兩個頁面均分。同樣的,D頁面的PR值只有三分之一算到了A的 PageRank 上。
A = B/2 + C/1 + D/3
可以這樣理解,每個網(wǎng)頁傳遞的PR值由導(dǎo)出的鏈接均分。假設(shè)頁面的導(dǎo)出鏈接數(shù)為L,那么A頁面的接收的PR值為:
A = B / L(B) + C / L(C) + D / L(D)
最后:上述這些被換算成百分比再乘上一個系數(shù)q,則得出該頁面的PR值,但是按照此算法,沒有頁面的PR的將會是0,所以Google通過數(shù)學(xué)系統(tǒng)給了每個頁面一個最小值1 - q。
A = {B / L(B) + C / L(C) + D / L(D)+...} q + 1 - q
每一個頁面的PR值均是由其他頁面的傳遞而計算得到,經(jīng)過不斷的計算PR值就會逐漸趨于平穩(wěn)。
簡單的PageRank算法說明到這里,有興趣的可以查找更多的搜索引擎算法研究資料。
2005年Google推出nofollow屬性,此屬性可以使Google認(rèn)為該鏈接不對目標(biāo)網(wǎng)頁進(jìn)行投票,保證爬蟲的正確識別和防止大量spam的產(chǎn)生。但據(jù)點石互動2009年6月4日消息《Google調(diào)整nofollow屬性效果》稱該屬性效果已經(jīng)降低。
PageRank算法最直觀的體現(xiàn)顯示在Google工具條上的(0-10)的綠色指標(biāo)(PR值)上。PR值從低到高0-10標(biāo)示網(wǎng)頁的等級,當(dāng)顯示為0或10時可以忽略(0有可能為全站的網(wǎng)站上線而PR值尚未更新、10則表示該網(wǎng)站已經(jīng)相當(dāng)權(quán)威)。
小彭在《在百度優(yōu)化中,高質(zhì)量的外鏈項目屬于重中之重》一文中提到:“高pr不一定代表高質(zhì)量,可低的pr一般來說站點的質(zhì)量都不怎么樣”,此文說明在針對百度的網(wǎng)站優(yōu)化過程中,PageRank算法體現(xiàn)出的PR值在SEO工作中僅能做為SEO工作者的一個判別指標(biāo),切不可盲目迷信PR值。
原文:小彭@長沙SEO http://www.pyy1990.cn/