您當前位置：首頁 > web前端 > 網絡優化 > 搜索引擎收錄網站原理做SEO的必須要了解

搜索引擎收錄網站原理做SEO的必須要了解

來源：程序員人生發布時間：2013-12-03 01:10:21 閱讀次數：3331次

　　看了許多seo參考書總覺得這些書對搜索引擎收錄原理說的太籠統，不能夠很好的理解，今天我花一天時間來說清楚搜索引擎收錄的原理，如有問題，望各位seo高手予以斧正，小弟不勝感激。

　　搜索引擎爬蟲，蜘蛛，機器人是什么?-搜索引擎收錄原理

　　搜索引擎為了能夠讓自己的數據庫足夠的強大，足夠的全面，不分晝夜的在網絡上尋找新的，更可靠的信息，但是隨著網絡時代到來，網絡信息爆炸式的整張，人工根本不可能完成這樣的任務，因此，搜索引擎擁有者開發出來一套程序，用來不分晝夜的抓去信息，然后整理，分類信息，最后將這些信息索引到自己的數據庫中。

　　這種不分晝夜抓取網站信息的程序的名字很多，比如：蜘蛛，爬蟲，機器人，探測器。一般搜索引擎可以同時派出N多個爬蟲程序，它們通過URL一個頁面一個頁面的抓去網站的標題，描述，圖片，網站內容等，然后把抓去回來的信息放在專用的倉庫中，等待索引。

　　但是網站的設計者，并不能保證自己設計的網站是天衣無縫的，都會有很多問題：比如說網頁中出現死鏈接，網頁內容過多等，都導致爬蟲程序無法正確的抓取完整個頁面的內容，或許爬蟲只抓去了這個頁面的頭部，在抓去身子的時候發現自己存儲信息的地方不夠了，不得不離開。所以我們在設計網站的時候都應該注意這些問題，建議各位網站設計者能夠把網頁設計的容易讓爬蟲接受。

　　Google的兩個爬蟲程序原理介紹

　　下面我們以搜索引擎中做的最好的google為例，分析搜索引擎是如何抓取信息，如何處理信息。

　　Google爬蟲程序擁有2種：刷新爬蟲，和深度探測爬蟲，刷新爬蟲部分晝夜的將抓取來的信息放在一個特定的數據庫中，由于刷新爬蟲個和主要索引程序一起提供搜索結果，有的時候您會發現，你的頁面更新突然出現在搜索結果頁面，但是過了一會又突然消失了，這是因為刷新爬蟲在不停的抓去信息，不停的重寫，給我的感覺是刷新爬蟲的存儲機制影響比較像數據結構中的棧，先進后出，后就進先出，消失的這段時間各位seo不要著急，還是那個樣子不停的更新1月后就會慢慢出現在搜索結果中，不過現在可能等待時間沒有那么長。如果你的頁面已經在搜索引擎的索引中出現，刷新爬蟲一旦發現你的更新，爬蟲程序會很快的將您的更新顯示出來，但是還是不夠穩定，要一直等到深度爬蟲更新主要索引，您的頁面才能夠足夠的穩定。

　　下面我們用簡單的流程介紹下搜索引擎收錄過程：

　　刷新爬蟲程序--------》發現信息----------》抓取信息----------》放在專用數據庫-----------》等待索引整理----------》索引整理(深度爬蟲訪問主要索引)-------》索引完成，某關鍵詞的排名都已經計算好-------》等待用戶搜索--------》奉上結果。

　　搜索引擎提供的結果有幾種?

　　搜索結果提供的搜索結果有二種，建議各位seoer都應該做上，本人正在學習中，希望能得到高手指點一二。

　　三種搜索結果1內容索引結果2特別索引結果，前者是對網頁的關鍵詞，標題，描述，鏈接源頭文字等文字形式的索引和壓縮。后者包含圖片索引，PDF文件索引等比較特殊的索引，建議各位seoer不要小看第二種搜索結果，這個也是能帶來相當大的流量的。

　　總結：搜索引擎收錄原理基本上就是這些了，如果有什么問題請及時予以斧正，小弟改，呵呵。

　　來源：seo10e.com

生活不易，碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生