phpcms怎樣配置采集模塊
來源:程序員人生 發布時間:2014-09-13 16:00:21 閱讀次數:4057次
今天給大家介紹一下phpcms中采集模塊的用法,這個屬于PHPcms的后臺基礎操作,phpcms在開源程序中一直是佼佼者,我們必須要學會怎樣使用
位置: 內容 > 內容發布管理 > 采集管理 >
模塊常用操作
說明:
文章的采集功能是通過程序來遠程獲取目標網頁內容,經過本地規則解析處理后存儲到服務器的數據庫內。
文章采集系統顛覆傳統采集模式和流程,采集規則與采集界面分離,規則設置更簡單,只需有基礎技術知識的人員設置好相關規則。編輯人員無需了解太過細節的技 術規則,只需選中自己想要采集的文章列表,就可以像發布文章一樣,輕松地完成數據采集操作。
一、采集流程
簡單的講有三個步驟:
1、添加采集點,填寫采集規則。
2、采集網址,采集內容
3、發布內容到指定欄目
以采集新浪新聞(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml)為例,作一下詳細流程介紹。
實例說明:
目標:采集新浪新聞到V9系統 國際新聞 欄目中。
目標網址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml
1、添加采集點
1.1 網址規則配置
添加采集點 - 網址規則配置圖1
查看要采集的目標網址源代碼,查找到要采集網址的開始點和結束點(這二個點要有在整個源代碼里具有唯一性)。更進一步縮小采集網址搜索范圍。
添加采集點 - 網址規則配置圖2
1.2 內容規則配置
內容規則這里看起來比較復雜,其實也很簡單,為了便于說明,我們只采集標題、內容兩個字段。采集內容網址:
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的內容采集規則,請你打開這個網址,然后頁面空白處右鍵->查看源文件搜索標題和內容的開始邊界。
標題采集配置:
從網頁<title></title>里取標題,并去除不需要的字符。如下圖
內容采集配置:
新浪新聞最終頁,新聞內容都包含在 <!-- 正文內容 begin --> <!-- 正文內容 end --> 之間,而且這二個結點,在整個頁面源代碼中具有唯一性。所以可以以此為規則取內容。并對內容進行過濾。如下圖
1.3 自定義規則
1.4 高級配置
可設置是否把圖片下載到服務器上,是否打水印等配置。
2、采集網址,采集內容
采集規則配好以后,即可進行網址的采集,然后進行內容的采集。
3、發布內容到指定欄目
選擇導入的欄目
設置 采集內容與數據庫的字段對應關系.提交進行數據入庫,在此期間請耐心等待, 完成后會自動轉向。至此一個簡單的采集流程就操作完成。
其它更多功能,期待你發掘。
生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈