python多线程抓取代理服务器

文章转载自：https://blog.linuxeye.com/410.html

代理服务器：http://www.proxy.com.ru

 #coding: utf-8

 import urllib2

 import re

 import time

 import threading

 import MySQLdb

 rawProxyList = []

 checkedProxyList = []

 #抓取代理网站

 targets = []

 for i in xrange(1, 23):

     target = r"http://www.proxy.com.ru/list_%d.html" % i

     targets.append(target)

     #print target + "\n"

 #抓取代理服务器正则

 p = re.compile(r'''<tr><b><td>(\d+)</td><td>(.+?)</td><td>(\d+)</td><td>(.+?)</td><td>(.+?)</td></b></tr>''')

 #获取代理的类

 class ProxyGet(threading.Thread):

     def __init__(self, target):

         threading.Thread.__init__(self)

         self.target = target

     def getProxy(self):

         req = urllib2.Request(self.target)

         respnse = urllib2.urlopen(req)

         result = respnse.read()

         matches = p.findall(result)

         #print matches

         for row in matches:

             ip = row[1]

             port = row[2]

             addr = row[4].decode("cp936").encode("utf-8")

             proxy = [ip, port, addr]

             #print proxy

             rawProxyList.append(proxy)

     def run(self):

         self.getProxy()

 #核对代理是否有效的类

 class ProxyCheck(threading.Thread):

     def __init__(self,proxyList):

         threading.Thread.__init__(self)

         self.proxyList = proxyList

         self.timeout = 5

         self.testUrl = "http://www.baidu.com/"

         self.testStr = ""

     def checkProxy(self):

         cookies = urllib2.HTTPCookieProcessor()

         for proxy in self.proxyList:

             proxyHandler = urllib2.ProxyHandler({"http": r'http://%s:%s' %(proxy[0], proxy[1])})

             #print r'http://%s:%s' %(proxy[0],proxy[1])

             opener = urllib2.build_opener(cookies, proxyHandler)

             opener.addheaders = [('User-agent', 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0')]

             #urllib2.install_opener(opener)

             t1 = time.time()

             try:

                 #req = urllib2.urlopen("http://www.baidu.com", timeout=self.timeout)

                 req = opener.open(self.testUrl, timeout=self.timeout)

                 #print "urlopen is ok...."

                 result = req.read()

                 #print "read html...."

                 timeused = time.time() - t1

                 pos = result.find(self.testStr)

                 #print "pos is %s" %pos

                 if pos >= 1:

                     checkedProxyList.append((proxy[0], proxy[1], proxy[2], timeused))

                     print "ok ip: %s %s %s %s" %(proxy[0],proxy[1],proxy[2],timeused)

                 else:

                      continue

             except Exception, e:

                 #print e.message

                 continue

     def run(self):

         self.checkProxy()

 if __name__ == "__main__":

     getThreads = []

     checkThreads = []

 #对每个目标网站开启一个线程负责抓取代理

 for i in range(len(targets)):

     t = ProxyGet(targets[i])

     getThreads.append(t)

 for i in range(len(getThreads)):

     getThreads[i].start()

 for i in range(len(getThreads)):

     getThreads[i].join()

 print '.'*10 + "总共抓取了%s个代理" % len(rawProxyList) + '.'*10

 #开启20个线程负责校验，将抓取到的代理分成20份，每个线程校验一份

 for i in range(20):

     t = ProxyCheck(rawProxyList[((len(rawProxyList)+19)/20) * i:((len(rawProxyList)+19)/20) * (i+1)])

     checkThreads.append(t)

 for i in range(len(checkThreads)):

     checkThreads[i].start()

 for i in range(len(checkThreads)):

     checkThreads[i].join()

 print '.'*10 + "总共抓取了%s个代理" % len(checkedProxyList) + '.'*10

 #插入数据库，四个字段ip, port, speed, addr

 def db_insert(insert_list):

     try:

         conn = MySQLdb.connect(host="127.0.0.1", user="root", passwd="meimei1118", db="ctdata", charset='utf8')

         cursor = conn.cursor()

         cursor.execute('delete from proxy')

         cursor.execute('alter table proxy AUTO_INCREMENT=1')

         cursor.executemany("INSERT INTO proxy(ip,port,speed,address) VALUES(%s, %s, %s,%s)", insert_list)

         conn.commit()

         cursor.close()

         conn.close()

     except MySQLdb.Error, e:

         print "Mysql Error %d: %s" %(e.args[0], e.args[1])

 #代理排序持久化

 proxy_ok = []

 for proxy in sorted(checkedProxyList, cmp=lambda x, y: cmp(x[3], y[3])):

     if proxy[3] < 8:

         #print "checked proxy is: %s:%s\t%s\t%s" %(proxy[0],proxy[1],proxy[2],proxy[3])

         proxy_ok.append((proxy[0], proxy[1], proxy[3], proxy[2]))

 db_insert(proxy_ok)

python多线程抓取代理服务器的更多相关文章

python 多线程抓取动态数据
利用多线程动态抓取数据,网上也有不少教程,但发现过于繁杂,就不能精简再精简?! 不多解释,直接上代码,基本上还是很好懂的. #!/usr/bin/env python # coding=utf-8 i ...
python多线程抓取网页信息
#!/usr/env python #-*- coding: utf-8 -*- import urllib import urllib2 import random import requ ...
Python数据抓取技术与实战 pdf
Python数据抓取技术与实战目录 D11章Python基础1.1Python安装1.2安装pip1.3如何查看帮助1.4D1一个实例1.5文件操作1.6循环1.7异常1.8元组1.9列表1.10字 ...
PHP利用Curl实现多线程抓取网页和下载文件
PHP 利用 Curl 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,然而因为php语言本身不支持多线程,所以开发爬虫程序效率并不高,一般采集数据可以利用 PHPquery ...
php多线程抓取信息测试例子
php多线程抓取信息测试例子 PHP 5.3 以上版本,使用pthreads PHP扩展,可以使PHP真正地支持多线程.多线程在处理重复性的循环任务,能够大大缩短程序执行时间. PHP扩展下载:htt ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
python requests抓取NBA球员数据，pandas进行数据分析，echarts进行可视化 (前言)
python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...
python数据抓取分析（python + mongodb）
分享点干货!!! Python数据抓取分析编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: def step(): try: ...
python 处理抓取网页乱码
python 处理抓取网页乱码问题一招鲜相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找是否包含指定的信息. 在html = urllib2. ...

随机推荐

我的Android进阶之旅------>Android自定义View实现带数字的进度条（NumberProgressBar）
今天在Github上面看到一个来自于 daimajia所写的关于Android自定义View实现带数字的进度条(NumberProgressBar)的精彩案例,在这里分享给大家一起来学习学习!同时感谢 ...
eclipse导入项目，项目名出现红叉的情况（修改版）
转至:http://blog.csdn.net/niu_hao/article/details/17440247 今天用eclipse导入同事发给我的一个项目之后,项目名称上面出现红叉,但是其他地方都 ...
MSSQL获取昨天，本周，本月。。。
特别说明下:以下统计本周数据时,星期天是作为下周的第一天,而不是本周最后一天,因此你把星期天作为本周最后一天时,你需要在getDate()的基础上减一天,如dateadd('day', -1, get ...
SSH 公钥检查
SSH 公钥检查是一个重要的安全机制,可以防范中间人劫持等黑客攻击.但是在特定情况下,严格的 SSH 公钥检查会破坏一些依赖 SSH 协议的自动化任务,就需要一种手段能够绕过 SSH 的公钥检查. 首 ...
apache错误 Unable to open process" with PID 4!
今天打开Apache的时候报错: 22:15:30 [Apache] Problem detected! 22:15:30 [Apache] Port 80 in use by "Una ...
appcmd应用
appcmd资料: http://www.jb51.net/article/36024.htm 官方文档:https://docs.microsoft.com/zh-cn/iis/get-starte ...
什么是EventLoop
Event Loop 是一个很重要的概念,指的是计算机系统的一种运行机制. JavaScript语言就采用这种机制,来解决单线程运行带来的一些问题. 本文参考C. Aaron Cois的<Und ...
MySQL-5.7 Insert语句详解
1.语法 INSERT [LOW_PRIORITY | DELAYED | HIGH_PRIORITY] [IGNORE] [INTO] tbl_name [PARTITION (partition_ ...
Number使用笔记
Numbe函数用于将对象转换为数字 0 0 null 0 空 0 "" 0 true 1 false 0 date ...
2018-2019-2 20165114《网络对抗技术》Exp3 免杀原理与实践
Exp3 免杀原理与实践目录一.实验内容二.基础问题回答 (1)杀软是如何检测出恶意代码的? (2)免杀是做什么? (3)免杀的基本方法有哪些? 三.实践过程记录正确使用msf编码器,msfv ...

python多线程抓取代理服务器

python多线程抓取代理服务器的更多相关文章

随机推荐

热门专题