我们在写python爬虫的过程中,对于大量数据的抓取总是希望能获得更高的速度和效率,但由于网络请求的延迟.IO的限制,单线程的运行总是不能让人满意.因此有了多线程.异步协程等技术. 下面介绍一下python中的多线程及线程池技术,并通过一个具体的爬虫案例实现具体运用. 多线程 先来分析单线程.写两个测试函数 def func1(): for i in range(500000): print("func1", i) def func2(): for i in range(500000)…
1.low版线程池设计思路:运用队列queue 将线程类名放入队列中,执行一个就拿一个出来import queueimport threading class ThreadPool(object): def __init__(self, max_num=20): self.queue = queue.Queue(max_num) #创建队列,最大数为20 for i in range(max_num): self.queue.put(threading.Thread) #将类名放入队列中 def…
from concurrent.futures import ThreadPoolExecutor import time def func(n): time.sleep(2) print(n) return n*n t_pool = ThreadPoolExecutor(max_workers=20) #max_workers一般不超过CPU*5,创建线程池 t_lst = [] for i in range(20): t = t_pool.submit(func,i) #提交多线程认为 t_…
并发是快速处理大量相似任务的绝佳办法,但对于有返回值的方法,需要一个容器专门来存储每个进程处理完的结果 from multiprocessing import Pool import time #返回值只有进程池才有,父子进程没有返回值 def func(i): time.sleep(1) return i*i if __name__ == '__main__': p = Pool(5) #从异步提交任务获取结果 res_l = [] for i in range(20): res = p.ap…
python未提供线程池模块,在python3上用threading和queue模块自定义简单线程池,代码如下: #用threading queue 做线程池 import queue import threading class ThreadPool(): def __init__(self,arg):#创建队列,在队列每个位置放一个threading.Tread类 self.queue_obj = queue.Queue(arg) for i in range(arg): self.queu…