用 python 实现一个多线程网页下载器

今天上来分享一下昨天实现的一个多线程网页下载器。

这是一个有着真实需求的实现，我的用途是拿它来通过 HTTP 方式向服务器提交游戏数据。把它放上来也是想大家帮忙挑刺，找找 bug，让它工作得更好。

keywords:python,http,multi-threads,thread,threading,httplib,urllib,urllib2,Queue,http pool,httppool

废话少说，上源码：

 # -*- coding:utf-8 -*-

 import urllib, httplib

 import thread

 import time

 from Queue import Queue, Empty, Full

 HEADERS = {"Content-type": "application/x-www-form-urlencoded",

                         'Accept-Language':'zh-cn',

                         'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0;Windows NT 5.0)',

                         "Accept": "text/plain"}

 UNEXPECTED_ERROR = -1

 POST = 'POST'

 GET = 'GET'

 def base_log(msg):

     print msg

 def base_fail_op(task, status, log):

     log('fail op. task = %s, status = %d'%(str(task), status))

 def get_remote_data(tasks, results, fail_op = base_fail_op, log = base_log):

     while True:

         task = tasks.get()

         try:

             tid = task['id']

             hpt = task['conn_args'] # hpt <= host:port, timeout

         except KeyError, e:

             log(str(e))

             continue

         log('thread_%s doing task %d'%(thread.get_ident(), tid))

         #log('hpt = ' + str(hpt))

         conn = httplib.HTTPConnection(**hpt)

         try:

             params = task['params']

         except KeyError, e:

             params = {}

         params = urllib.urlencode(params)

         #log('params = ' + params)

         try:

             method = task['method']

         except KeyError:

             method = 'GET'

         #log('method = ' + method)

         try:

             url = task['url']

         except KeyError:

             url = '/'

         #log('url = ' + url)

         headers = HEADERS

         try:

             tmp = task['headers']

         except KeyError, e:

             tmp = {}

         headers.update(tmp)

         #log('headers = ' + str(headers))

         headers['Content-Length'] = len(params)

         try:

             if method == POST:

                 conn.request(method, url, params, headers)

             else:

                 conn.request(method, url + params)

             response = conn.getresponse()

         except Exception, e:

             log('request failed. method = %s, url = %s, params = %s headers = %s'%(

                         method, url, params, headers))

             log(str(e))

             fail_op(task, UNEXPECTED_ERROR, log)

             continue

         if response.status != httplib.OK:

             fail_op(task, response.status, log)

             continue

         data = response.read()

         results.put((tid, data), True)

 class HttpPool(object):

     def __init__(self, threads_count, fail_op, log):

         self._tasks = Queue()

         self._results = Queue()

         for i in xrange(threads_count):

             thread.start_new_thread(get_remote_data,

                                                             (self._tasks, self._results, fail_op, log))

     def add_task(self, tid, host, url, params, headers = {}, method = 'GET', timeout = None):

         task = {

             'id' : tid,

             'conn_args' : {'host' : host} if timeout is None else {'host' : host, 'timeout' : timeout},

             'headers' : headers,

             'url' : url,

             'params' : params,

             'method' : method,

             }

         try:

             self._tasks.put_nowait(task)

         except Full:

             return False

         return True

     def get_results(self):

         results = []

         while True:

             try:

                 res = self._results.get_nowait()

             except Empty:

                 break

             results.append(res)

         return results

 def test_google(task_count, threads_count):

     hp = HttpPool(threads_count, base_fail_op, base_log)

     for i in xrange(task_count):

         if hp.add_task(i,

                 'www.google.cn',

                 '/search?',

                 {'q' : 'lai'},

 #                method = 'POST'

                 ):

             print 'add task successed.'

     while True:

         results = hp.get_results()

         if not results:

             time.sleep(1.0 * random.random())

         for i in results:

             print i[0], len(i[1])

 #            print unicode(i[1], 'gb18030')

 if __name__ == '__main__':

     import sys, random

     task_count, threads_count = int(sys.argv[1]), int(sys.argv[2])

     test_google(task_count, threads_count)

from: http://blog.csdn.net/gzlaiyonghao/article/details/4083852

用 python 实现一个多线程网页下载器的更多相关文章

使用python做一个IRC在线下载器
使用python做一个IRC在线下载器 1.开发流程 2.软件流程 3.开始 3.0 准备工作 3.1寻找API接口 3.2 文件模块 3.2.1 选择文件弹窗 3.2.2 提取文件名 3.2.2.1 ...
Python实现多线程HTTP下载器
本文将介绍使用Python编写多线程HTTP下载器,并生成.exe可执行文件. 环境:windows/Linux + Python2.7.x 单线程在介绍多线程之前首先介绍单线程.编写单线程的思路为 ...
python3 爬虫五大模块之三：网页下载器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
Python实战：美女图片下载器，海量图片任你下载
Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习 ...
Android开发多线程断点续传下载器
使用多线程断点续传下载器在下载的时候多个线程并发可以占用服务器端更多资源,从而加快下载速度,在下载过程中记录每个线程已拷贝数据的数量,如果下载中断,比如无信号断线.电量不足等情况下,这就需要使用到断点 ...
Java多线程的下载器（1）
实现了一个基于Java多线程的下载器,可提供的功能有: 1. 对文件使用多线程下载,并显示每时刻的下载速度. 2. 对多个下载进行管理,包括线程调度,内存管理等. 一:单个文件下载的管理 1. 单文件 ...
第5章网页下载器和urllib2模块
网页下载器:将互联网上URL对应的网页下载到本地的工具通过网页下载器将互联网中的url网页,存储到本地或内存字符串 python有哪几种网页下载器? 1.urllib2 python官方基础模块 ...
我的Android进阶之旅------>Android基于HTTP协议的多线程断点下载器的实现
一.首先写这篇文章之前,要了解实现该Android多线程断点下载器的几个知识点 1.多线程下载的原理,如下图所示注意:由于Android移动设备和PC机的处理器还是不能相比,所以开辟的子线程建议不要 ...
python使用tcp实现一个简单的下载器
上一篇中介绍了tcp的流程,本篇通过写一个简单的文件下载器程序来巩固之前学的知识. 文件下载器的流程如下: 客户端: 输入目标服务器的ip和port 输入要下载文件的名称从服务器下载文件保存到本地 ...

随机推荐

BZOJ 1034 题解
1034: [ZJOI2008]泡泡堂BNB Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 2613 Solved: 1334[Submit][St ...
【BZOJ】1998: [Hnoi2010]Fsk物品调度
http://www.lydsy.com/JudgeOnline/problem.php?id=1998 题意: 给你6个整数$n,s,q,p,m,d$. 有$n$个位置和$n-1$个盒子,位置编号从 ...
Redis_Jedis使用总结
目录:1.pipeline2.跨jvm的id生成器3.跨jvm的锁实现(watch multi)4.redis分布式 1. Pipeline 官方的说明是:starts a pipeline,whic ...
Linux 下安装mysql 链接库
1.mysql 客户端开发链接库 1.1)CentOS yum install mysql-devel
linux vi 删除多行的方法
dd 删除一行 d$ 删除以当前字符开始的一行字符 ndd 删除以当前行开始的n行 dw 删除以当前字符开始的一个字 ndw 删除以当前字符开始的n个字 D 与d$同义 d) 删除到下一句的开始 d} ...
NodeJS优缺点及适用场景讨论
概述:NodeJS宣称其目标是“旨在提供一种简单的构建可伸缩网络程序的方法”,那么它的出现是为了解决什么问题呢,它有什么优缺点以及它适用于什么场景呢? 本文就个人使用经验对这些问题进行探讨. 一. N ...
.net的五层架构
原文章地址是http://www.360doc.com/content/11/1210/21/19147_171335782.shtml 我们刚开始学习架构的时候,首先会想到分层的概念,分层架构比较经 ...
（转）深入理解flash重绘
深入理解Flash Player重绘 Flash Player 会以SWF内容的帧频速度来刷新需要变化的内容,而这个刷新的过程,我们通常称为“重绘(redraw)”,相信即便是初级的菜鸟也知道,只要使 ...
第一次scrum meeting 报告
1.第一次scrum meeting确定了我们任务和相应的分配方案,具体分配情况如下: 这是我们团队其中一名成员的任务内容及相应预估时长,其他成员具体分配情况已在TFS上作了相应更新. 第一次scru ...
sqlmap用户手册详解(转)
http://url/sqlmap/mysql/get_int.php?id=1 当给sqlmap这么一个url的时候,它会: 1.判断可注入的参数 2.判断可以用那种SQL注入技术来注入 3.识别出 ...

用 python 实现一个多线程网页下载器

用 python 实现一个多线程网页下载器的更多相关文章

随机推荐

热门专题