多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

國內最全IT社區平臺 聯系我們 | 收藏本站
阿里云優惠2
您當前位置:首頁 > php開源 > 綜合技術 > 一個簡單的Python寫的XML爬蟲

一個簡單的Python寫的XML爬蟲

來源:程序員人生   發布時間:2013-11-06 16:22:29 閱讀次數:2995次

原理很簡單,讀XML結構,返回值,判斷,根據返回的值得到下一個XML的地址,判斷
PY的class和PHP差不多,思路是一樣的

#-*- encoding: utf-8 -*-
import codecs
import sys
import threading
from urllib import urlencode
from urllib2 import urlopen
from xml.dom.minidom import parseString
class Serach:
def __init__(self, key=None):
self.key = key
def SendPy(self, key):
try:
contentpy = urlopen("http://xxxx.com/ac_box?ac=" + self.key).read()
except:
print ("down load py!")
try:
xmldoc = parseString(contentpy)
except:
print ("ill formed xml file")
root = xmldoc.documentElement
''分析XML的結構,得到數組
keyList = root.getElementsByTagName('SuggestWord')
return keyList
def SendKey(self, keyword):
keyword = keyword.encode('gbk')
tupleList = []
try:
''讀XML地址,轉碼
content = urlopen("http://xxxx.com/btinfo?keyword=" + keyword + "&num=1").read()
content = unicode(content, "cp936").encode("utf-8")
except:
print ("down load key!")
''替換
content = content.replace('''<?xml version="1.0" encoding="gbk"?>''', '''<?xml version="1.0" encoding="utf-8"?>''')
try:
xmldoc = parseString(content)
except:
print ("ill formed xml file")
try:
query = xmldoc.getElementsByTagName('Query')[0]
tupleList = query.getAttribute('ErrorCode')
except:
tupleList = 104
return tupleList
def run(self):
ls = self.SendPy(self.key)
count = len(self.key)
cur = self.conn.cursor()
str = ''
for doc in ls:
tuple = doc.firstChild.data
text = self.SendKey(tuple)
if text == '0':
test = self.MySQLKey(tuple)

if test != '2':
str = str + tuple + '|' + test + ','
if count > 3:
sitetag = self.MySQLPy(self.key)
if sitetag != ():
for x in sitetag:
tsql = "xxxx"
cur.execute(tsql)
#print(cur.fetchall())
for s in cur.fetchall():
if (s[0]=='rmvb') or (s[0]=='rm'):
r = '0'
else:
r = '1'
str = str + x[0] + '|' + r + ','
str = str[:-1]
else:
str = str[:-1]
#轉成數組后過濾重復字段
strtag = list(set(str.split(',')))
sText = ','.join(strtag)
file_object = codecs.open(self.savePath + self.key + '.txt', 'w', 'utf-8')
file_object.write(sText)
file_object.close()
if __name__ == "__main__":
if len(sys.argv) > 1:
s = Serach(sys.argv[1]);
s.run()
生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
為碼而活
積分:4237
15粉絲
7關注
欄目熱點
關閉
程序員人生
主站蜘蛛池模板: 日本一级级特黄特色大片 | 美女伊人网 | 精品一区二区三区高清免费观看 | 亚洲国产一区二区三区在线观看 | 国产免费久久精品99久久 | 久久99精品久久久久久野外 | 波多野结衣手机视频一区 | 欧美午夜在线观看 | 成人在线观看视频免费 | 久久国产精品1区2区3区网页 | 亚洲小说另类 | 高清完整视频在线播放 | 岛国午夜视频 | 成人中文字幕在线 | 成年人在线视频网站 | 亚洲欧美日韩综合在线一区二区三区 | 日韩欧美亚洲视频 | 国产日韩精品一区二区在线观看播放 | 亚洲欧美一区二区三区国产精品 | 日本高清www视频在线观看 | 黄网址大全免费观看免费 | 一级毛片视频在线观看 | 精品一区二区影院在线 | 九九黄色 | 亚洲精品一区91 | 欧美性猛交xxxx免费看久久久 | 国产成人久久精品一区二区三区 | 亚洲黄色免费网站 | 欧美一级做一级做片性十三 | 性欧美videos另类hd高清 | 国内视频一区二区 | 亚洲欧美另类在线观看 | 亚洲日本一区二区 | 涩涩伊人 | xxxxxx日本处大片免费看 | 全免费a级毛片免费看不卡 全网毛片 | 男人和女人全黄一级毛片 | 欧美日韩激情一区二区三区 | 欧美在线伊人 | 欧美另类videos粗暴黑人 | 欧美视频在线一区二区三区 |