使用进程池模拟多进程爬取url获取数据，使用进程绑定的回调函数去处理数据

 1 # 使用requests请求网页，爬取网页的内容

 2

 3 # 模拟使用进程池模拟多进程爬取网页获取数据，使用进程绑定的回调函数去处理数据

 4

 5 import requests

 6 from multiprocessing import Pool

 7

 8 # response = requests.get('http://www.baidu.com') # 访问网页获取网页内容，得到一个网页内容的结果对象<Response [200]>这个200是一个状态码，200表示网页正常的返回，404表示网页找不到

 9 #

10 # print(response)

11 # print(response.status_code) # 获取访问网页返回的状态码，200表示网页正常返回，404表示网页找不到。这里是200

12 # print(response.__dict__)

13 # print(response.content) # 获取网页源码

14

15 def get_url(url):

16     '''

17     爬取url、将url和url的源码返回

18     :param url:

19     :return:

20     '''

21     response = requests.get(url)

22     if response.status_code == 200:     # 200表示网页成功返回了，成功访问了网页

23         return url, response.content.decode('utf-8')     # 将网页的源码获取到，因为源码是bytes类型的，所以这里解码成了str

24

25 def call_back(args):

26     '''

27     回调函数，接收获取get_url的返回值，处理获取到的网页数据

28     :param args: 参数不能是多个，所以想获取到多个参数，这里可以是元组的形式.接收的是get_url的返回值

29     :return:

30     '''

31     url, content = args

32     print(url, len(content))

33

34 if __name__ == '__main__':

35     url_lst = [

36         'https://www.cnblogs.com',

37         'http://www.baidu.com',

38         'https://www.sogou.com',

39         'http://www.sohu.com'

40     ]

41     pool = Pool(4)

42     for url in url_lst:

43         pool.apply_async(get_url, args=(url, ), callback=call_back)

44     pool.close()

45     pool.join()

　　回调函数：一般应用在进程的任务有延时，而要处理的数据时间的很短时，将进程的任务和回调函数绑定起来，将任务获取到的数据返回给回调函数，由回调函数处理数据，回调函数是在主进程中得以执行的

使用进程池模拟多进程爬取url获取数据，使用进程绑定的回调函数去处理数据的更多相关文章

代理ip的使用以及多进程爬取
一.代理皮的简单使用简单的看一二例子即可 import requests #代理ip 高频的ip容易被封,所以使用ip代理 #免费代理 ip:www.goubanjia.com 快代理西祠代理 h ...
使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~
上次写了爬取这个网站的程序,有一些地方不完善,而且爬取速度较慢,今天完善一下并开启多进程爬取,速度就像坐火箭.. # 需要的库 from lxml import etree import reques ...
python+BeautifulSoup+多进程爬取糗事百科图片
用到的库: import requests import os from bs4 import BeautifulSoup import time from multiprocessing impor ...
使用Post方法模拟登陆爬取网页
最近弄爬虫,遇到的一个问题就是如何使用post方法模拟登陆爬取网页.下面是极简版的代码: import java.io.BufferedReader; import java.io.InputStre ...
Python Requests库入门——应用实例-京东商品页面爬取+模拟浏览器爬取信息
京东商品页面爬取选择了一款荣耀手机的页面(给华为打广告了,荣耀play真心不错) import requests url = "https://item.jd.com/7479912.ht ...
使用Post方法模拟登陆爬取网页(转)
使用Post方法模拟登陆爬取网页最近弄爬虫,遇到的一个问题就是如何使用post方法模拟登陆爬取网页.下面是极简版的代码: import java.io.BufferedReader; impor ...
python+正则+多进程爬取糗事百科图片
话不多说,直接上代码: # 需要的库 import requests import re import os from multiprocessing import Pool # 请求头 header ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器
第三百四十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器编写spiders爬虫文件循环 ...

随机推荐

go 结构体与方法
go 结构体与方法 go 结构体相当于 python 中类的概念,结构体用来定义复杂的数据结构,存储很多相同的字段属性结构体的定义 1.结构体的定义以及简单实用 package main imp ...
centos8平台使用journalctl管理systemd-journald日志
一,systemd-journald的作用 1,什么是systemd-journald? systemd-journald 是 systemd 自带的日志系统,是一个收集并存储各类日志数据的系统服务. ...
mac 解决安卓模拟器链接不上网络
方法1.临时方法,每次启动都要加114.114.114.114 1.进入到下面的目录 /Users/anxiaodong/Library/Android/sdk/emulator 2.执行以下命令 e ...
Ngnix01
Nginx(一)------简介与安装目录 1.Nginx 的简介 2.Nginx 的常用功能 3.Nginx 安装 ①.下载地址 ②.Windows 版本安装 ③.Linux 版本安装说到 ...
【总结】vertica数据库
1.简介 Vertica是一款基于列式存储架构的数据库,可以支持存放多至PB级别的结构化数据 2.列式存储行式存储就是以行为单位进行存储,再配合B+树作为索引,就能快速通过主键找到相应的行数据.即大 ...
kong in kubernetes
网关这里提到的网关特指API网关.API网关是在微服务架构的演进过程中产生的,其核心功能是聚合后端服务,为客户端调用提供统一的门户.由于网关的集中式管理,在其上又衍生了限流.负载.路由管理.安全防护 ...
Cobalt Strike使用的一些技巧
利用msf模块上线beacon shell 当通过CS的mimikatz或者其他方式获得了目标机器的明文密码或者哈希时,可以利用metasploit的psexec_command模块来上线CS的bea ...
Java并发队列与容器
[前言:无论是大数据从业人员还是Java从业人员,掌握Java高并发和多线程是必备技能之一.本文主要阐述Java并发包下的阻塞队列和并发容器,其实研读过大数据相关技术如Spark.Storm等源码的, ...
php中Standard中配置选项，在TargetFrameworks环境下如何输出库存
在.NET Standard/.NET Core技术出现之前,编写一个类库项目(暂且称为基础通用类库PA)且需要支持不同 .NET Framework 版本,那么可行的办法就是创建多个不同版本的项目( ...
ElasticSearch 集群基本概念及常用操作汇总（建议收藏）
内容来源于本人的印象笔记,简单汇总后发布到博客上,供大家需要时参考使用. 原创声明:作者:Arnold.zhao 博客园地址:https://www.cnblogs.com/zh94 目录: Elas ...

使用进程池模拟多进程爬取url获取数据，使用进程绑定的回调函数去处理数据

使用进程池模拟多进程爬取url获取数据，使用进程绑定的回调函数去处理数据的更多相关文章

随机推荐

热门专题