新云系統采集設置中常見問題及相關解答
1、過濾設置是干什么的,我要過濾什么樣的標簽?
2、采集匹配的開始和結束代碼應該怎樣設置?
3、怎樣采集回來的內容才不會導致頁面錯位?
4、分頁采集怎么設置?內容分頁和分頁設置兩個選項有什么區別?
就以上新云采集中的常見問題逐一解答:
1、過濾設置是干什么的,我要過濾什么樣的標簽?
在采集時對方的網頁內容中可能包含有很多內容并不是我們想要或想要看到的,比如內容中插入廣告,內容中關鍵詞加的鏈接。內容中調用了一些JS特效等。此時即可以根據對方的內容情況,查看源代碼,看這些要過濾的內容是以什么樣的代碼展現的,比如要過濾掉JS代碼,選擇SCRIPT標簽,要過濾掉連接,選擇A標簽,要過濾掉字體顏色,選擇FONT標簽,要過濾掉DIV內容,選擇DIV標簽。
2、采集匹配的開始和結束代碼應該怎么設置?
在采集中最重要的就是設置采集匹配代碼了,匹配到的內容會放入不同的字段最終形式我們網站上的數據。在設置開始代碼時,一般要選擇在頁面源代碼中要截取的內容前面的一段代碼,而且應該是在前面的內容中唯一出現的代碼,比如截取標題時,一般只需要設置<h1>就可以了,因為很多網站在內容頁面會使用 <h1>標題</h1> 的形式來顯示標題,<h1>往往也是頁面中唯一出現的代碼。在設置結束代碼時,只需要設置要截取內容后面的第一個字符即可,當然也可以設置一段字符,不要求是頁面中唯一的字符。比如在這里我們使用了<h1>做為開始代碼,結束代碼設置為 < 即可,< 即是內容后的第一個字符,不過很多人會設置為</h1> 這樣看起來舒服一點,這樣設置也沒有錯,只要是內容后面第一次出現的字符或字符串即可。
3、怎么采集回來的內容不才會導致頁面錯位?
這個問題在DIV+CSS開始流行的時候逐漸重要起來,在以前大家都使用table布局網頁的時候,并不會因為一個td或table標簽的缺失造成頁面嚴重錯位,而在div布局中,一個div標簽的缺失或寫錯位置都可以導致頁面面目全非。所以在采集內容的時候,我們要遵循標簽成對匹配的原則進行開始和結束標簽的設置,這樣可以盡量保證采集回來的內容不會出現多余的div或其它HTML標簽和頁面模版中的HTML標簽結合造成錯亂。在設置內容匹配代碼時,如果開始代碼我們設置的是 <div id="newsContent"> 那么我們的結束一般也應該應該是 </div> ,這樣的<div>和</div>就是一對標簽。如果我們設置的是</div>下面的某些唯一代碼,則會導致在采集回來的內容中有多余的</div>在輸出到頁面上時,和模版中的其它<div>相結合成對,導致DIV布局錯位。
4、分布采集怎么設置?內容分頁和分布設置兩個選項有什么區別?
首先解釋一下新云中的分頁設置,新云分頁設置有三個選項:不設置,內容分頁,分頁設置。
不設置:很容易理解就是不做分頁設置。
內容分頁:是指要獲取的分頁代碼是包含在我們截取的內容之中。在獲取分頁中將從截取到的內容中進行查找。在分頁獲取完畢這部分代碼將從內容中過濾掉。
分頁設置:是指要獲取的分頁代碼不包含在我們截取的內容之中,與內容截取無關,是一個單獨匹配的代碼。
理解了這三個選項的意思,下面的分頁設置也很簡單了,分頁代碼的截取與其它字段的截取無異,先是設置分頁區域開始代碼,這部分一般在內容結束或內容的結尾部門,通過以pagelist 之類的標記開始,找到這個唯一標記即可。分頁區域結束代碼,即是在分頁頁面結束之后的一個字符,一般為</span>或</div>之類。而分頁鏈接設置一般可設置為 開始代碼 <a href=" 結束代碼 " 截取鏈接地址即可。這一部分與列表頁獲取文章鏈接原理一樣。