您當前位置：首頁 > web前端 > 網絡優化 > 淺談搜索引擎是怎么判定原創與抄襲

淺談搜索引擎是怎么判定原創與抄襲

來源：程序員人生發布時間：2014-04-16 18:51:31 閱讀次數：2577次

　　我們知道，網站原創內容在搜索引擎排名中占有重要地位，但做原創內容不容易，偽原創又怕不被當成原創，白做。那么我們先從搜索引擎角度去如何判定內容是原創還是抄襲。

　　很多站長都想利用原創內容來提高自己網站的收錄與排名，但是做原創內容并不是一件容易的事，偶爾一兩篇應該還行，要是一天一兩篇，很多多人也是受不了，因為大多數站長都不是作家那樣行如流水。比如要寫一篇SEO的原創文章，若是自己本身都還不太了解SEO，那肯定是半天都都憋不出一個字來。所以，如何利用別人的文章來改成偽原創，讓搜索引擎以為是原創內容，這是很多站長都追求的效果。

　　之前有人認為搜索引擎是利用“分詞”與“索引”技術，沒看過的可以看下這篇《網站建設中利用搜索引擎“分詞”和“索引庫”技術來做網站排名》地址是：http://www.kz27.com/seo-paiming/fenci-suoyin/ ，大家都很認同。我們來看看2010-02-21在百度搜索“網站建設中常見的DIV+CSS問題解決方法”時得出的結果：

　　從上圖可以看出，搜索引擎確實是利用了分詞技術：它把“網站建設中常見的DIV+CSS問題解決方法”分為“網站”、”建設”、”常見”、”div”、”CSS”、”問題”、”解決”、”方法“ 還有“網站的”,“div+css的”,“網站設計”。值得一提的是跟“網站建設”相關的“網站設計”也以紅字出現。同時，在上面的搜索關鍵詞中，有“的”也沒有“的”搜索結果都是213篇文章，但排名有一點點小的改動。如下圖：

　　注：以下純屬猜測，如有與搜索引擎算法相似，不勝榮幸，歡迎指正。

　　第一、首先，我們來分析索引擎是如何分析哪些是原創，哪些不是原創的

　　是原創還是復制別人的文章，要進行判斷，那肯定需要進行“比較”。那怎么比較?我們先從搜索引擎地角度去想想看：

　　1.先是標題

　　如果是一樣的，那很有可能是復制，但要是改了一下標題呢，如把《如何做偽原創文章》改成《教你怎么寫偽原創內容》，意思沒變，文字變了。所以，不能僅靠標題來判斷是不是原創。但可以做以下分析：

　　因為搜索引擎的數據量實在太大，不可能對所有的內容進行遂一的結比，而是同樣是使用“分詞“技術：

　　(1)如果搜索引擎蛛蛛訪問的頁面是一個新的頁面，那么，它將先把這個頁面內容收集起來，放入一個數據庫(或是其它)，等其它程序如專門對比內容是不是原創、是不是有價值的程序進行處理。這時候，這個內容將不會被搜索出來。

　　(2)分析內容。也是利用了分詞技術，對標題、內容等進行分析。得出了這個頁面的主要內容。如《周杰倫2010年專輯》這樣的篇文章時，它將與包括”周杰倫“、”2010“、”專輯“這樣的關鍵詞的文章進行比較，而不用與所有的網頁進行比較。如果結果是原創、比較有價值，則進行收錄，給比較高的權重。如果被認為是復制或抄襲，則不進行收錄，或是給的權重很低。順便要說的是，對于這個頁面的權重，不僅僅是跟其本身的內容、本身的內容有關，能不能有好的排名，還要跟整個站點的權重有關。打個比方，如果這個頁面的權重是3，網站的權重是3，那加起來是6。要是別的網站轉載了這個文章，文章的權重是1，但他的網站的權重是7，那加起來就是8。6<8所以轉載的文章還是會排在原創文章的前面。

　　2.對文章的內容進行分析比較

　　首先從搜索引擎角度去考慮：

　　用戶在做偽原創的時候，會經常用到的方法有：

　　(1)刪除部分內容

　　(2)添加部分內容。在復制過來的文章里添加上兩句，或是把多篇文章合在一起。

　　(3)調換內容順序。把原文1.A，2.B，3.C，4.D，5.E 改成 1.C，2.B，3.E，4.A，5. D

　　用分詞技術后對相關的內容進行比較，分析項目有：

　　(1)字數大小

　　(2)幾個關鍵字出現頻率

　　(3)文中任幾句話

　　(4)鏈接

　　程序分析過程：