爬虫性能相关

一 背景知识

爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,采用串行的方式执行,只能等待爬取一个结束后才能继续下一个,效率会非常低。

需要强调的是:串行并不意味着低效,如果串行的都是纯计算的任务,那么cpu的利用率仍然会很高,之所以爬虫程序的串行低效,是因为爬虫程序是明显的IO密集型程序。

关于IO模型详见链接:http://www.cnblogs.com/linhaifeng/articles/7454717.html

那么该如何提高爬取性能呢?

二 同步、异步、回调机制

1、同步调用:即提交一个任务后就在原地等待任务结束,等到拿到任务的结果后再继续下一行代码,效率低下

  1. import requests
  2.  
  3. def get_page(url):
  4. response=requests.get(url)
  5. if response.status_code == 200:
  6. return response.text
  7.  
  8. urls=['https://www.baidu.com/','http://www.sina.com.cn/','https://www.python.org']
  9. for url in urls:
  10. res=get_page(url) #调用一个任务,就在原地等待任务结束拿到结果后才继续往后执行
  11. print(len(res))

同步调用

2、一个简单的解决方案:多线程或多进程

  1. #在服务器端使用多线程(或多进程)。多线程(或多进程)的目的是让每个连接都拥有独立的线程(或进程),这样任何一个连接的阻塞都不会影响其他的连接。
  1. from multiprocessing import Process
  2. from threading import Thread
  3. import requests
  4.  
  5. def get_page(url):
  6. response=requests.get(url)
  7. if response.status_code == 200:
  8. return response.text
  9.  
  10. if __name__ == '__main__':
  11. urls=['https://www.baidu.com/','http://www.sina.com.cn/','https://www.python.org']
  12. for url in urls:
  13. p=Process(target=get_page,args=(url,))
  14. p.start()
  15. # t=Thread(target=get_page,args=(url,))
  16. # t.start()

多进程或多线程

    该方案的问题是:

  1. #开启多进程或都线程的方式,我们是无法无限制地开启多进程或多线程的:在遇到要同时响应成百上千路的连接请求,则无论多线程还是多进程都会严重占据系统资源,降低系统对外界响应效率,而且线程与进程本身也更容易进入假死状态。

3、改进方案: 线程池或进程池+异步调用:提交一个任务后并不会等待任务结束,而是继续下一行代码

  1. #很多程序员可能会考虑使用“线程池”或“连接池”。“线程池”旨在减少创建和销毁线程的频率,其维持一定合理数量的线程,并让空闲的线程重新承担新的执行任务。“连接池”维持连接的缓存池,尽量重用已有的连接、减少创建和关闭连接的频率。这两种技术都可以很好的降低系统开销,都被广泛应用很多大型系统,如websphere、tomcat和各种数据库等。
  1. from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor
  2. import requests
  3.  
  4. def get_page(url):
  5. print('GET : %s' %url)
  6. response=requests.get(url)
  7. if response.status_code == 200:
  8. return response.text
  9.  
  10. if __name__ == '__main__':
  11. p=ProcessPoolExecutor()
  12. # p=ThreadPoolExecutor()
  13.  
  14. urls=['https://www.baidu.com/','http://www.sina.com.cn/','https://www.python.org']
  15. for url in urls:
  16. p.submit(get_page,url)
  17. p.shutdown(wait=True)

进程池或线程池

  1. from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor
  2. import requests
  3. import os
  4.  
  5. def get_page(url):
  6. print('%s GET : %s' %(os.getpid(),url))
  7. response=requests.get(url)
  8. if response.status_code == 200:
  9. return response.text
  10.  
  11. def parse_page(res):
  12. res=res.result()
  13. print('%s parsing' %os.getpid())
  14.  
  15. if __name__ == '__main__':
  16. p=ProcessPoolExecutor()
  17. # p=ThreadPoolExecutor()
  18.  
  19. urls=['https://www.baidu.com/','http://www.sina.com.cn/','https://www.python.org']
  20. for url in urls:
  21. p.submit(get_page,url).add_done_callback(parse_page)
  22. p.shutdown(wait=True)

异步调用+回调机制 

    改进后方案其实也存在着问题:

  1. #“线程池”和“连接池”技术也只是在一定程度上缓解了频繁调用IO接口带来的资源占用。而且,所谓“池”始终有其上限,当请求大大超过上限时,“池”构成的系统对外界的响应并不比没有池的时候效果好多少。所以使用“池”必须考虑其面临的响应规模,并根据响应规模调整“池”的大小。

    对应上例中的所面临的可能同时出现的上千甚至上万次的客户端请求,“线程池”或“连接池”或许可以缓解部分压力,但是不能解决所有问题。总之,多线程模型可以方便高效的解决小规模的服务请求,但面对大规模的服务请求,多线程模型也会遇到瓶颈,可以用非阻塞接口来尝试解决这个问题。

三 高性能

上述无论哪种解决方案其实没有解决一个性能相关的问题:IO阻塞,无论是多进程还是多线程,在遇到IO阻塞时都会被操作系统强行剥夺走CPU的执行权限,程序的执行效率因此就降低了下来。

解决这一问题的关键在于,我们自己从应用程序级别检测IO阻塞然后切换到我们自己程序的其他任务执行,这样把我们程序的IO降到最低,我们的程序处于就绪态就会增多,以此来迷惑操作系统,操作系统便以为我们的程序是IO比较少的程序,从而会尽可能多的分配CPU给我们,这样也就达到了提升程序执行效率的目的

1、在python3.3之后新增了asyncio模块,可以帮我们检测IO(只能是网络IO),实现应用程序级别的切换

  1. import asyncio
  2.  
  3. @asyncio.coroutine
  4. def task(task_id,senconds):
  5. print('%s is start' %task_id)
  6. yield from asyncio.sleep(senconds) #只能检测网络IO,检测到IO后切换到其他任务执行
  7. print('%s is end' %task_id)
  8.  
  9. tasks=[task(task_id=1,senconds=3),task(task_id=2,senconds=4)]
  10.  
  11. loop=asyncio.get_event_loop()
  12. loop.run_until_complete(asyncio.gather(*tasks))
  13. loop.close()

基本使用

2、但asyncio模块只能发tcp级别的请求,不能发http协议,因此,在我们需要发送http请求的时候,需要我们自定义http报头

  1. #我们爬取一个网页的过程,以https://www.python.org/doc/为例,将关键步骤列举如下
  2. #步骤一:向www.python.org这台主机发送tcp三次握手,是IO阻塞操作
  3. #步骤二:封装http协议的报头
  4. #步骤三:发送http协议的请求包,是IO阻塞操作
  5. #步骤四:接收http协议的响应包,是IO阻塞操作
  6. import asyncio
  7.  
  8. @asyncio.coroutine
  9. def get_page(host,port=80,url='/'):
  10. #步骤一(IO阻塞):发起tcp链接,是阻塞操作,因此需要yield from
  11. recv,send=yield from asyncio.open_connection(host,port)
  12.  
  13. #步骤二:封装http协议的报头,因为asyncio模块只能封装并发送tcp包,因此这一步需要我们自己封装http协议的包
  14. requset_headers="""GET %s HTTP/1.0\r\nHost: %s\r\n\r\n""" % (url, host,)
  15. # requset_headers="""POST %s HTTP/1.0\r\nHost: %s\r\n\r\nname=egon&password=123""" % (url, host,)
  16. requset_headers=requset_headers.encode('utf-8')
  17.  
  18. #步骤三(IO阻塞):发送http请求包
  19. send.write(requset_headers)
  20. yield from send.drain()
  21.  
  22. #步骤四(IO阻塞):接收http协议的响应包
  23. text=yield from recv.read()
  24.  
  25. #其他处理
  26. print(host,url,text)
  27. send.close()
  28. print('-===>')
  29. return 1
  30.  
  31. tasks=[get_page(host='www.python.org',url='/doc'),get_page(host='www.cnblogs.com',url='linhaifeng'),get_page(host='www.openstack.org')]
  32.  
  33. loop=asyncio.get_event_loop()
  34. results=loop.run_until_complete(asyncio.gather(*tasks))
  35. loop.close()
  36.  
  37. print('=====>',results) #[1, 1, 1]

asyncio+自定义http协议报头

3、自定义http报头多少有点麻烦,于是有了aiohttp模块,专门帮我们封装http报头,然后我们还需要用asyncio检测IO实现切换

  1. import aiohttp
  2. import asyncio
  3.  
  4. @asyncio.coroutine
  5. def get_page(url):
  6. print('GET:%s' %url)
  7. response=yield from aiohttp.request('GET',url)
  8.  
  9. data=yield from response.read()
  10.  
  11. print(url,data)
  12. response.close()
  13. return 1
  14.  
  15. tasks=[
  16. get_page('https://www.python.org/doc'),
  17. get_page('https://www.cnblogs.com/linhaifeng'),
  18. get_page('https://www.openstack.org')
  19. ]
  20.  
  21. loop=asyncio.get_event_loop()
  22. results=loop.run_until_complete(asyncio.gather(*tasks))
  23. loop.close()
  24.  
  25. print('=====>',results) #[1, 1, 1]

asyncio+aiohttp

4、此外,还可以将requests.get函数传给asyncio,就能够被检测了

  1. import requests
  2. import asyncio
  3.  
  4. @asyncio.coroutine
  5. def get_page(func,*args):
  6. print('GET:%s' %args[0])
  7. loog=asyncio.get_event_loop()
  8. furture=loop.run_in_executor(None,func,*args)
  9. response=yield from furture
  10.  
  11. print(response.url,len(response.text))
  12. return 1
  13.  
  14. tasks=[
  15. get_page(requests.get,'https://www.python.org/doc'),
  16. get_page(requests.get,'https://www.cnblogs.com/linhaifeng'),
  17. get_page(requests.get,'https://www.openstack.org')
  18. ]
  19.  
  20. loop=asyncio.get_event_loop()
  21. results=loop.run_until_complete(asyncio.gather(*tasks))
  22. loop.close()
  23.  
  24. print('=====>',results) #[1, 1, 1]

asyncio+requests模块的方法

5、还有之前在协程时介绍的gevent模块

  1. from gevent import monkey;monkey.patch_all()
  2. import gevent
  3. import requests
  4.  
  5. def get_page(url):
  6. print('GET:%s' %url)
  7. response=requests.get(url)
  8. print(url,len(response.text))
  9. return 1
  10.  
  11. # g1=gevent.spawn(get_page,'https://www.python.org/doc')
  12. # g2=gevent.spawn(get_page,'https://www.cnblogs.com/linhaifeng')
  13. # g3=gevent.spawn(get_page,'https://www.openstack.org')
  14. # gevent.joinall([g1,g2,g3,])
  15. # print(g1.value,g2.value,g3.value) #拿到返回值
  16.  
  17. #协程池
  18. from gevent.pool import Pool
  19. pool=Pool(2)
  20. g1=pool.spawn(get_page,'https://www.python.org/doc')
  21. g2=pool.spawn(get_page,'https://www.cnblogs.com/linhaifeng')
  22. g3=pool.spawn(get_page,'https://www.openstack.org')
  23. gevent.joinall([g1,g2,g3,])
  24. print(g1.value,g2.value,g3.value) #拿到返回值

gevent+requests

6、封装了gevent+requests模块的grequests模块

  1. #pip3 install grequests
  2.  
  3. import grequests
  4.  
  5. request_list=[
  6. grequests.get('https://wwww.xxxx.org/doc1'),
  7. grequests.get('https://www.cnblogs.com/linhaifeng'),
  8. grequests.get('https://www.openstack.org')
  9. ]
  10.  
  11. ##### 执行并获取响应列表 #####
  12. # response_list = grequests.map(request_list)
  13. # print(response_list)
  14.  
  15. ##### 执行并获取响应列表(处理异常) #####
  16. def exception_handler(request, exception):
  17. # print(request,exception)
  18. print("%s Request failed" %request.url)
  19.  
  20. response_list = grequests.map(request_list, exception_handler=exception_handler)
  21. print(response_list)

grequests

7、twisted:是一个网络框架,其中一个功能是发送异步请求,检测IO并自动切换

  1. '''
  2. #问题一:error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
  3. https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
  4. pip3 install C:\Users\Administrator\Downloads\Twisted-17.9.0-cp36-cp36m-win_amd64.whl
  5. pip3 install twisted
  6.  
  7. #问题二:ModuleNotFoundError: No module named 'win32api'
  8. https://sourceforge.net/projects/pywin32/files/pywin32/
  9.  
  10. #问题三:openssl
  11. pip3 install pyopenssl
  12. '''
  13.  
  14. #twisted基本用法
  15. from twisted.web.client import getPage,defer
  16. from twisted.internet import reactor
  17.  
  18. def all_done(arg):
  19. # print(arg)
  20. reactor.stop()
  21.  
  22. def callback(res):
  23. print(res)
  24. return 1
  25.  
  26. defer_list=[]
  27. urls=[
  28. 'http://www.baidu.com',
  29. 'http://www.bing.com',
  30. 'https://www.python.org',
  31. ]
  32. for url in urls:
  33. obj=getPage(url.encode('utf=-8'),)
  34. obj.addCallback(callback)
  35. defer_list.append(obj)
  36.  
  37. defer.DeferredList(defer_list).addBoth(all_done)
  38.  
  39. reactor.run()
  40.  
  41. #twisted的getPage的详细用法
  42. from twisted.internet import reactor
  43. from twisted.web.client import getPage
  44. import urllib.parse
  45.  
  46. def one_done(arg):
  47. print(arg)
  48. reactor.stop()
  49.  
  50. post_data = urllib.parse.urlencode({'check_data': 'adf'})
  51. post_data = bytes(post_data, encoding='utf8')
  52. headers = {b'Content-Type': b'application/x-www-form-urlencoded'}
  53. response = getPage(bytes('http://dig.chouti.com/login', encoding='utf8'),
  54. method=bytes('POST', encoding='utf8'),
  55. postdata=post_data,
  56. cookies={},
  57. headers=headers)
  58. response.addBoth(one_done)
  59.  
  60. reactor.run()

twisted的用法

8、tornado

  1. from tornado.httpclient import AsyncHTTPClient
  2. from tornado.httpclient import HTTPRequest
  3. from tornado import ioloop
  4.  
  5. def handle_response(response):
  6. """
  7. 处理返回值内容(需要维护计数器,来停止IO循环),调用 ioloop.IOLoop.current().stop()
  8. :param response:
  9. :return:
  10. """
  11. if response.error:
  12. print("Error:", response.error)
  13. else:
  14. print(response.body)
  15.  
  16. def func():
  17. url_list = [
  18. 'http://www.baidu.com',
  19. 'http://www.bing.com',
  20. ]
  21. for url in url_list:
  22. print(url)
  23. http_client = AsyncHTTPClient()
  24. http_client.fetch(HTTPRequest(url), handle_response)
  25.  
  26. ioloop.IOLoop.current().add_callback(func)
  27. ioloop.IOLoop.current().start()

Tornado

 
 

【转】Python爬虫(5)_性能相关的更多相关文章

  1. PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)

    说明 文章首发于HURUWO的博客小站,本平台做同步备份发布. 如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览. 原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二 ...

  2. python爬虫(一)_爬虫原理和数据抓取

    本篇将开始介绍Python原理,更多内容请参考:Python学习指南 为什么要做爬虫 著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...

  3. Python爬虫(九)_非结构化数据与结构化数据

    爬虫的一个重要步骤就是页面解析与数据提取.更多内容请参考:Python学习指南 页面解析与数据提取 实际上爬虫一共就四个主要步骤: 定(要知道你准备在哪个范围或者网站去搜索) 爬(将所有的网站的内容全 ...

  4. Python爬虫(十一)_案例:使用正则表达式的爬虫

    本章将结合先前所学的爬虫和正则表达式知识,做一个简单的爬虫案例,更多内容请参考:Python学习指南 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起 ...

  5. Python爬虫(十三)_案例:使用XPath的爬虫

    本篇是使用XPath的案例,更多内容请参考:Python学习指南 案例:使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子且将该帖子里每个楼层发布的图片下载 ...

  6. Python爬虫(十)_正则表达式

    本篇将介绍python正则表达式,更多内容请参考:[python正则表达式] 什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索.替换那些符合某个模式(规则)的文本. 正则表达式是对字符串操 ...

  7. 【转】Python爬虫(1)_基本原理

    一 爬虫是什么 #如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物/数据 #爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程 ...

  8. 3.Python爬虫入门_正则表达式(简单例子)

    #2019-11-23 import requests import time import re #Python正则表达式库 if __name__=='__main__': #海量爬取图片数据 # ...

  9. python爬虫-喜马拉雅_晚安妈妈睡前故事

    这里先说下思路: 1.首先要获取当前书的音频信息 '''获取当前书的音频信息''' all_list = [] for url in self.book_url: r = requests.get(u ...

随机推荐

  1. SQL SERVER 存储过程示例

    USE TEST_DEV; SET ANSI_NULLS ON GO SET QUOTED_IDENTIFIER ON GO -- ================================== ...

  2. PLSQL Developer 9注册码

    Product Code:46jw8l8ymfmp2twwbuur8j9gv978m2q2duserial Number:307254password:xs374ca

  3. 没有局域网环境,全是公网IP可以做LVS吗,该如何做了!请大家赐教!

    没有局域网环境,全是公网IP可以做LVS吗,该如何做了!请大家赐教! 由 wjjava 在 周四, -- : 提交 LVS集群 现在有3台服务器,各有一个公网IP地址.IP地址形式如下: IP1:12 ...

  4. c++ 如何使用第三方的library

    感谢以下参考资料: 关于如何使用第三方的库: http://stackoverflow.com/questions/21942545/how-to-install-third-party-librar ...

  5. iOS开发 多屏尺的自动适配(转)

    [iOS开发]多屏尺的自动适配 AutoLayout (纯代码方式) (2014-09-19 09:35:47) 转载▼ 标签: autolayout ios开发 xcode ui 分类: Xcode ...

  6. CI框架基本配置/教你学习CI框架codelgniter

    CI框架现在中国可以说还是不成熟,不像thinkphp那样有那么多的中文手册,在国内,很多国人英语都很烂,CI现在教程还是不多.大家心里都存在这严重想法 CI 框架现在中国可以说还是不成熟,不像thi ...

  7. C#网络编程系列文章(五)之Socket实现异步UDPserver

    原创性声明 本文作者:小竹zz 本文地址http://blog.csdn.net/zhujunxxxxx/article/details/44258719 转载请注明出处 文章系列文件夹 C#网络编程 ...

  8. CSS学习(二)- 有关 hasLayout 和 BFC

    1. hasLayout 概念说明 ‘Layout’ 可以被某些 CSS property(特性)不可逆的触发,而某些 HTML 元素本身就具有 layout . ‘Layout’ 在 IE 中可以通 ...

  9. Microsoft SQL Server JDBC 驱动程序支持矩阵

    本页包含 Microsoft SQL Server JDBC 驱动程序的支持矩阵和支持生命周期策略. Microsoft JDBC 驱动程序支持生命周期矩阵和策略 Microsoft 支持生命周期 ( ...

  10. Openstack(Kilo)安装系列之环境准备(二)

    控制节点.网络节点.计算节点: 一.配置源 1.配置EPEL源 yum install http://dl.fedoraproject.org/pub/epel/7/x86_64/e/epel-rel ...