多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

國內最全IT社區平臺 聯系我們 | 收藏本站
阿里云優惠2
您當前位置:首頁 > php開源 > php教程 > Python第一個程序小爬蟲

Python第一個程序小爬蟲

來源:程序員人生   發布時間:2015-06-16 08:41:31 閱讀次數:2489次

最近想上手Python??焖偃腴T1門語言的方法就是寫個小Demo。Python Demo必須是爬蟲了。第1個小爬蟲程序有些簡陋,高手勿噴。

關于爬蟲主要分為3個部份:根據隊列中的URL爬取界面、獲得內容、保存結果。

程序是以百度網站大全為種子URL,抓取頁面中URL順次放入隊列中,爬蟲從URL隊列順次獲得新URL繼續向外爬取。

# -*- coding: utf⑻ -*- import urllib2 import re import thread import time class HTML_Spider: def __init__(self): self.url = [] #根據隊列中的URL爬取界面 def GetPage(self,url): try: myResponce = urllib2.urlopen(url) myPage = myResponce.read() myUrl = re.findall('href="(.*?)"',myPage,re.S) self.url.extend(myUrl); except: print u'當前URL不合法' myPage = ' ' return myPage #以HTML的情勢保存界面 def SavePage(self,page): if page != ' ': #以時間戳的情勢為文件命名 f = open(time.strftime(str(time.time()),time.localtime(time.time()))+'.html','w+')#解決pagenama問題,最好采取保存時間命名 f.write(page) f.close() #保持URL隊列 def StartSpider(self): i = 1 while 1: if i == 1: url = u'http://site.baidu.com/' else: url = self.url[i] i += 1 print url page = self.GetPage(url) self.SavePage(page) #程序main函數 print u'開始爬取頁面:' raw_input(" ") mySpider = HTML_Spider() mySpider.StartSpider()
生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關閉
程序員人生
主站蜘蛛池模板: 91www在线观看| 亚洲午夜在线观看 | 日韩欧美一区二区久久 | 中文资源在线观看 | 超乳w真性中出し冲田杏梨101 | 亚洲乱码一区二区三区国产精品 | 国产h视频在线 | jizzjizzjizz亚洲女 | 欧美xxxx性xxxxx高清视频 | 成人伊人亚洲人综合网站222 | 免费国产在线视频 | 久久一本一区二区三区 | www.亚洲.com| freexxxhd性欧美| 2020久久精品永久免费 | 亚洲大片免费观看 | 99成人在线视频 | 精品肉动漫资源在线观看 | 国产成人精品福利网站在线 | 国产亚洲精品免费 | 国产免费一区二区三区最新 | 久久99国产精品成人 | 欧美国产综合日韩一区二区 | 欧美人与物videos另 | 久久综合九色综合欧洲 | 日本自己的私人影院 | 国内精品一区二区三区 | 男女视频免费观看 | 国产高清视频免费人人爱 | 国产日韩精品欧美一区视频 | 性视频一区二区三区免费 | 99久久精品免费看国产漫画 | 欧美精品久久久亚洲 | 猫咪www免费人成网站 | 91手机看片国产福利精品 | 日韩精品国产精品 | 91人人区免费区人人 | 午夜视频在线观看免费观看在线观看 | 日本一区二区三区四区无限 | 午夜在线播放免费人成无 | 黄色免费观看视频网站 |