您當前位置：首頁 > php開源 > php教程 > Python第一個程序小爬蟲

Python第一個程序小爬蟲

來源：程序員人生發布時間：2015-06-16 08:41:31 閱讀次數：2489次

最近想上手Python?？焖偃腴T1門語言的方法就是寫個小Demo。Python Demo必須是爬蟲了。第1個小爬蟲程序有些簡陋，高手勿噴。

關于爬蟲主要分為3個部份：根據隊列中的URL爬取界面、獲得內容、保存結果。

程序是以百度網站大全為種子URL，抓取頁面中URL順次放入隊列中，爬蟲從URL隊列順次獲得新URL繼續向外爬取。

# -*- coding: utf⑻ -*-
import urllib2
import re
import thread
import time

class HTML_Spider:

    def __init__(self):  
        self.url = []  
    #根據隊列中的URL爬取界面
    def GetPage(self,url):
        try:
            myResponce = urllib2.urlopen(url)
            myPage = myResponce.read()      
            myUrl = re.findall('href="(.*?)"',myPage,re.S)
            self.url.extend(myUrl);
        except:
            print u'當前URL不合法'
            myPage = ' '
        return myPage
    #以HTML的情勢保存界面
    def SavePage(self,page):
        if page != ' ':
            #以時間戳的情勢為文件命名
            f = open(time.strftime(str(time.time()),time.localtime(time.time()))+'.html','w+')#解決pagenama問題，最好采取保存時間命名
            f.write(page)
            f.close()
    #保持URL隊列
    def StartSpider(self):
        i = 1
        while 1:
            if i == 1:
                url = u'http://site.baidu.com/'
            else:
                url = self.url[i]
            i += 1
            print url
            page = self.GetPage(url)
            self.SavePage(page)

#程序main函數  
print u'開始爬取頁面：'  
raw_input(" ")
mySpider = HTML_Spider()  
mySpider.StartSpider()

生活不易，碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生

------分隔線----------------------------

上一篇 B. School Marks (CF #301 (Div. 2))

下一篇 Isomorphic Strings

分享到:

------分隔線----------------------------

為碼而活

積分：4237

15粉絲

7關注

欄目熱點

多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

Python第一個程序小爬蟲