多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

國內最全IT社區平臺 聯系我們 | 收藏本站
阿里云優惠2
您當前位置:首頁 > web前端 > 網絡優化 > 淺談搜索引擎是怎么判定原創與抄襲

淺談搜索引擎是怎么判定原創與抄襲

來源:程序員人生   發布時間:2014-04-16 18:51:31 閱讀次數:2577次

  我們知道,網站原創內容在搜索引擎排名中占有重要地位,但做原創內容不容易,偽原創又怕不被當成原創,白做。那么我們先從搜索引擎角度去如何判定內容是原創還是抄襲。

  很多站長都想利用原創內容來提高自己網站的收錄與排名,但是做原創內容并不是一件容易的事,偶爾一兩篇應該還行,要是一天一兩篇,很多多人也是受不了,因為大多數站長都不是作家那樣行如流水。比如要寫一篇SEO的原創文章,若是自己本身都還不太了解SEO,那肯定是半天都都憋不出一個字來。所以,如何利用別人的文章來改成偽原創,讓搜索引擎以為是原創內容,這是很多站長都追求的效果。

  之前有人認為搜索引擎是利用“分詞”與“索引”技術,沒看過的可以看下這篇《網站建設中利用搜索引擎“分詞”和“索引庫”技術來做網站排名》地址是:http://www.kz27.com/seo-paiming/fenci-suoyin/ ,大家都很認同。我們來看看2010-02-21在百度搜索“網站建設中常見的DIV+CSS問題解決方法”時得出的結果:

  

 

  從上圖可以看出,搜索引擎確實是利用了分詞技術:它把“網站建設中常見的DIV+CSS問題解決方法”分為“網站”、”建設”、”常見”、”div”、”CSS”、”問題”、”解決”、”方法“ 還有“網站的”,“div+css的”,“網站設計”。值得一提的是跟“網站建設”相關的“網站設計”也以紅字出現。同時,在上面的搜索關鍵詞中,有“的”也沒有“的”搜索結果都是213篇文章,但排名有一點點小的改動。如下圖:

  

 

  注:以下純屬猜測,如有與搜索引擎算法相似,不勝榮幸,歡迎指正。

  第一、首先,我們來分析索引擎是如何分析哪些是原創,哪些不是原創的

  是原創還是復制別人的文章,要進行判斷,那肯定需要進行“比較”。那怎么比較?我們先從搜索引擎地角度去想想看:

  1.先是標題

  如果是一樣的,那很有可能是復制,但要是改了一下標題呢,如把《如何做偽原創文章》改成《教你怎么寫偽原創內容》,意思沒變,文字變了。所以,不能僅靠標題來判斷是不是原創。但可以做以下分析:

  因為搜索引擎的數據量實在太大,不可能對所有的內容進行遂一的結比,而是同樣是使用“分詞“技術:

  (1)如果搜索引擎蛛蛛訪問的頁面是一個新的頁面,那么,它將先把這個頁面內容收集起來,放入一個數據庫(或是其它),等其它程序如專門對比內容是不是原創、是不是有價值的程序進行處理。這時候,這個內容將不會被搜索出來。

  (2)分析內容。也是利用了分詞技術,對標題、內容等進行分析。得出了這個頁面的主要內容。如《周杰倫2010年專輯》這樣的篇文章時,它將與包括”周杰倫“、”2010“、”專輯“這樣的關鍵詞的文章進行比較,而不用與所有的網頁進行比較。如果結果是原創、比較有價值,則進行收錄,給比較高的權重。如果被認為是復制或抄襲,則不進行收錄,或是給的權重很低。順便要說的是,對于這個頁面的權重,不僅僅是跟其本身的內容、本身的內容有關,能不能有好的排名,還要跟整個站點的權重有關。打個比方,如果這個頁面的權重是3,網站的權重是3,那加起來是6。要是別的網站轉載了這個文章,文章的權重是1,但他的網站的權重是7,那加起來就是8。6<8所以轉載的文章還是會排在原創文章的前面。

  2.對文章的內容進行分析比較

  首先從搜索引擎角度去考慮:

  用戶在做偽原創的時候,會經常用到的方法有:

  (1)刪除部分內容

  (2)添加部分內容。在復制過來的文章里添加上兩句,或是把多篇文章合在一起。

  (3)調換內容順序。把原文1.A,2.B,3.C,4.D,5.E 改成 1.C,2.B,3.E,4.A,5. D

  用分詞技術后對相關的內容進行比較,分析項目有:

  (1)字數大小

  (2)幾個關鍵字出現頻率

  (3)文中任幾句話

  (4)鏈接

  程序分析過程:

  如果 (字數大小一樣)并且(幾個關鍵字出現頻率一樣)并且(文中任幾句話一樣)并且(鏈接指向與本文有90%以上的相似度的文章)

  或者 文中任5句(長短不一,可能是5-30個字)以上的話是一致的

  那么 判定為抄襲或偽原創。

  由上面的程序分析過程中,可以看出:簡單的刪除內容、添加合并部分內容、調換內容順序、段落順序并不能讓搜索引擎當做原創。為什么?因為用如上簡單的的方法就可以看出大概了。字數大小、幾個關鍵字出現頻率、鏈接這都好辦,文中任幾句話對比這就不好辦了。

  文章來源:http://www.kz27.com/blog/zuo-yuanchuang-1/

  由上可以看出,要做到被搜索引擎認為為是原創內容,絕大部分的內容都得改。那怎么改呢?下篇文章將和大家學習學習。

生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關閉
程序員人生
主站蜘蛛池模板: 另类老妇性bbwbbw | 欧美色视频免费高清播放 | chinesehd国产刺激对白 | 毛色毛片免费观看 | 亚洲伊人久久大香线焦 | 国产在线中文字幕 | 国产一区二区久久精品 | 亚州毛色毛片免费观看 | 国产三级日产三级 | 国产精品亚洲精品久久成人 | 中文字幕在线观看 | 欧洲性大片xxxxx久久久 | 亚洲剧情在线 | 亚洲 欧美 日韩中文字幕一区二区 | 国产亚洲精品久久77777 | 国产欧美亚洲三区久在线观看 | 国产麻豆视频在线观看 | 欧美free性 | 国产福利不卡视频在免费播放 | 欧美不卡一区二区三区 | 久久亚洲精品成人综合 | 欧美男同志高清videosbest | www.免费观看| 在线 成人| 国产日韩欧美亚洲综合在线 | 性猛交xxxxx按摩中国 | 自拍偷拍亚洲图片 | 亚洲欧美四级在线播放 | 亚洲精品自在线拍 | 欧美一区二区三区不卡 | 成人夜视频 | 五月天综合网 | 多人做人爱视频大全在线观看 | 欧美成人影院 在线播放 | 精品久久影院 | 男人尻女人视频 | 国产一级毛片国语普通话对白 | www.黄色网址| 亚洲精品久久久久午夜三 | 曰本在线网 | 亚洲天堂久久 |