0、此框架只能用于爬虫,由框架来调度url请求,必须按照此方式开发,没有做到类似celery的通用分布式功能,也不方便测试。可以使用另外一个,基于函数式编程的,调度一切函数的分布式框架,做到了兼容任何新老代码,满足任何需要分布式的场景。

一个分布式爬虫框架。比scrapy简单很多,不需要各种item pipeline middwares spider settings run文件之间来回切换写代码,这只需要一个文件,开发时候可以节约很多时间,形式非常松,需要重写一个方发,自己想怎么解析入库都可以,不需要定义item和写pipeline存储。自带的RequestClient支持cookie简单操作,支持一键切换ip代理的使用方式,不需要写这方面的中间件。

推荐使用rabbitmq作为消息中间件,能确保消费正确,可以随便任何时候关停程序。使用redis如果随意停止,会丢失正在请求或还没解析入库的任务,线程进程越多,丢的越多。

# coding=utf-8
import abc
import math
import json
import queue
import time
from collections import OrderedDict
# noinspection PyUnresolvedReferences
from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor
from threading import Lock
from pika import BasicProperties
# noinspection PyUnresolvedReferences
from app.utils_ydf import LoggerMixin, LogManager, MongoMixin, RedisMixin, RequestClient, decorators, RedisBulkWriteHelper, RedisOperation, MongoBulkWriteHelper, MysqlBulkWriteHelper, RabbitMqHelper class BoundedThreadPoolExecutor(ThreadPoolExecutor):
def __init__(self, max_workers=None, thread_name_prefix=''):
super().__init__(max_workers, thread_name_prefix)
self._work_queue = queue.Queue(max_workers * 2) class StatusError(Exception):
pass class VolunteerErrorForSpiderRetry(Exception):
"""
此类型的错误,如果被__request_and_extract捕获,不记录错误日志。只为了错误重试。
""" # noinspection PyBroadException
class BaseCustomSpider(LoggerMixin, MongoMixin, RedisMixin, metaclass=abc.ABCMeta):
"""
一个精简的自定义的基于reids任务调度的分布式基础爬虫框架(所谓分布式就是可以水平扩展,一台机器开启多进程不需要修改代码或者多次重复启动python程序,以及多个机器都可以启动此程序)。子类只需要几行重写_request_and_extract方法,就可以快速开发并发 分布式的爬虫项目,比scrapy简单很多。
用法BookingListPageSpider继承BaseCustomSpider,重写_request_and_extract完成解析和入库。以下为启动方式。
BookingListPageSpider('booking:listpage_urls', threads_num=500).set_request_timeout(100).set_request_proxy('kuai').start_craw() # start_craw是非阻塞的命令,可以直接在当前主线程再运行一个详情页的spider """
lock = Lock()
pool_schedu_task = BoundedThreadPoolExecutor(200) # 如果是外网使用redis可能存在延迟,使用10个线程。 def __init__(self, seed_key: str = None, request_method='get', threads_num=100, proxy_name='kuai', log_level=1):
"""
:param seed_key: redis的seed键
:param request_method: 请求方式get或者post
:param threads_num:request并发数量
:param proxy_name:可为None, 'kuai', 'abuyun', 'crawlera',为None不使用代理
"""
self.__check_proxy_name(proxy_name)
self._seed_key = seed_key
self._request_metohd = request_method
self._proxy_name = proxy_name
self._threads_num = threads_num
self.theadpool = BoundedThreadPoolExecutor(threads_num)
self.logger.setLevel(log_level * 10)
LogManager('RequestClient').get_logger_and_add_handlers(log_level)
self._initialization_count()
self._request_headers = None
self._request_timeout = 60
self._max_request_retry_times = 5 # 请求错误重试请求的次数
self._max_parse_retry_times = 3 # 解析错误重试请求的次数
self._is_print_detail_exception = False
self.logger.info(f'{self.__class__} 被实例化') @staticmethod
def __check_proxy_name(proxy_name):
if proxy_name not in (None, 'kuai', 'abuyun', 'crawlera'):
raise ValueError('设置的代理ip名称错误') def _initialization_count(self):
self._t1 = time.time()
self._request_count = 0
self._request_success_count = 0 def set_max_request_retry_times(self, max_request_retry_times):
self._max_request_retry_times = max_request_retry_times
return self def set_request_headers(self, headers: dict):
"""
self.request_headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
"""
self._request_headers = headers
return self # 使其可以链式操作 def set_request_timeout(self, timeout: float):
self._request_timeout = timeout
return self def set_request_proxy(self, proxy_name):
self.__check_proxy_name(proxy_name)
self._proxy_name = proxy_name
return self def set_print_detail_exception(self, is_print_detail_exception: bool):
self._is_print_detail_exception = is_print_detail_exception
return self def _calculate_count_per_minute(self, flag):
with self.lock:
if time.time() - self._t1 > 60:
# _request_count, _request_success_count = self._request_count, self._request_success_count
self.logger.info(f'{self.__class__} 一分钟内请求了 {self._request_count}次 成功了 {self._request_success_count}次, redis的{self._seed_key} 键还有 {self.redis_db7.scard(self._seed_key)} 个种子')
self._initialization_count()
if flag == 0:
self._request_count += 1
if flag == 1:
self._request_success_count += 1 def start_craw(self):
# self._schedu_a_task()
[self.pool_schedu_task.submit(self._schedu_a_task) for _ in range(10)] # 如果是外网来链接broker会有传输损耗,影响整体速度。 # @decorators.tomorrow_threads(300)
@decorators.keep_circulating(time_sleep=1) # 防止redis异常了,导致程序中断需要手动重启程序。
def _schedu_a_task(self):
while True:
seed_bytes = self.redis_db7.spop(self._seed_key)
if seed_bytes:
seed_dict = json.loads(seed_bytes)
# noinspection PyProtectedMember
self.logger.debug(f'当前线程数量是 {len(self.theadpool._threads)} ,种子是: {seed_dict}')
self.theadpool.submit(self.__request_and_extract, seed_dict['url'], meta=seed_dict)
else:
self.logger.warning(f'redis的 {self._seed_key} 键是空的')
time.sleep(2) # @decorators.handle_exception(50, )
def _dispacth_request(self, url, data: dict = None, current_url_request_times=0, ):
# self.__calculate_count_per_minute(0)
"""
:param url: 请求url
:param current_url_request_times:
:param data: post亲戚逇数据
:return:
"""
if current_url_request_times < self._max_request_retry_times:
if current_url_request_times > 0:
pass
# self.logger.debug(current_url_request_times)
# noinspection PyBroadException
try:
resp = RequestClient(self._proxy_name, timeout=self._request_timeout).request_with_proxy(method=self._request_metohd, url=url, headers=self._request_headers, data=data) # 使用快代
except Exception as e:
self.logger.error(f'第{current_url_request_times + 1} 次request请求网络错误的原因是: {e}', exc_info=0)
self._calculate_count_per_minute(0)
return self._dispacth_request(url, data, current_url_request_times + 1)
else:
if resp.status_code == 200:
self._calculate_count_per_minute(0)
self._calculate_count_per_minute(1)
return resp
else:
self.logger.critical(f'返回状态是 {resp.status_code} --> {url}')
self._calculate_count_per_minute(0)
return self._dispacth_request(url, data, current_url_request_times + 1)
else:
self.logger.critical(f'请求 {url} 达到最大次数{self._max_request_retry_times}后,仍然失败')
return None def put_seed_task_to_broker(self, seed_key: str, seed_dict: OrderedDict):
seed_str = json.dumps(seed_dict)
# self.redis_db7.sadd(redis_key, seed_str)
RedisBulkWriteHelper(self.redis_db7, threshold=50).add_task(RedisOperation('sadd', seed_key, seed_str)) def __request_and_extract(self, url, meta: OrderedDict, current_retry_times=0): # 主要threadpoolexcutor没有毁掉结果时候会不记录错误,错误被隐藏了
# noinspection PyBroadException
if current_retry_times < self._max_parse_retry_times:
try:
self.request_and_extract(url, meta)
except Exception as e:
if isinstance(e, VolunteerErrorForSpiderRetry):
pass
else:
self.logger.error(f'第{current_retry_times+1}次发生解析错误的url是 {url} \n {e}', exc_info=self._is_print_detail_exception)
self.__request_and_extract(url, meta, current_retry_times + 1)
else:
self.logger.critical(f'解析 {url} 的页面内容达到最大次数{self._max_parse_retry_times}后,仍然失败') # noinspection PyUnusedLocal
@abc.abstractmethod
def request_and_extract(self, url, meta: OrderedDict):
"""
子类需要重写此方法,完成解析和数据入库或者加入提取的url二次链接和传递的参数到redis的某个键。爬虫需要多层级页面提取的,重新实例化一个此类运行即可。
:param url:
:param meta:
:return:
"""
"""
必须使用_dispacth_request方法来请求url,不要直接使用requests,否则不能够对请求错误成自动重试和每分钟请求数量统计和代理ip设置无效
response = self._dispacth_request(url)
print(response.text)
"""
raise NotImplementedError # noinspection PyUnresolvedReferences
class RabbitmqBrokerForSpiderMixin(metaclass=abc.ABCMeta):
"""
推荐使用rabbitmq作为消息中间件。
不使用redis作为中间件,使用rabbitmq作为中间件,好处是可以随便在爬取过程中关闭程序,不会丢失当前任务。需要同时继承此类和BaseCustomSpider两个类,此类放在继承的第一个位置
"""
# noinspection PyArgumentEqualDefault
LogManager('pika.heartbeat').get_logger_and_add_handlers(1)
lock_channel = Lock() @property
@decorators.cached_method_result
def _channel_publish(self):
channel = RabbitMqHelper().creat_a_channel()
return channel @decorators.cached_property
def _channel_statistics(self):
channel = RabbitMqHelper().creat_a_channel()
channel.queue_declare(queue=self._seed_key, durable=True)
return channel @decorators.keep_circulating(time_sleep=1) # 防止服务器rabbitmq关闭了,修复好后,自动恢复。
def _schedu_a_task(self):
channel = RabbitMqHelper().creat_a_channel()
channel.queue_declare(queue=self._seed_key, durable=True)
channel.basic_qos(prefetch_count=int(math.ceil(self._threads_num / 10))) def callback(ch, method, properties, body):
seed_dict = json.loads(body)
# noinspection PyProtectedMember
self.logger.debug(f'rabbitmq种子是: {seed_dict}')
# self.__request_and_extract(ch, method, properties, seed_dict['url'], meta=seed_dict)
self.theadpool.submit(self.__request_and_extract, ch, method, properties, seed_dict['url'], meta=seed_dict) channel.basic_consume(callback,
queue=self._seed_key,
# no_ack=True # 不需要确认,不确认随便关停spider会丢失一些任务。
)
channel.start_consuming() def put_seed_task_to_broker(self, seed_key: str, seed_dict: OrderedDict):
"""
添加种子或任务到redis中
:param seed_key: 种子/任务在redis的键
:param seed_dict: 任务,必须是一个有序字典类型,不能用字典,否则会插入相同的任务到redis中。字典中需要至少包含一个名叫url的键,可以添加其余的键用来携带各种初始任务信息。
:return:
"""
with self.lock_channel:
channel = self._channel_publish
seed_str = json.dumps(seed_dict)
channel.queue_declare(queue=seed_key, durable=True)
channel.basic_publish(exchange='',
routing_key=seed_key,
body=seed_str,
properties=BasicProperties(
delivery_mode=2, # make message persistent
)
) # noinspection PyArgumentEqualDefault
def _calculate_count_per_minute(self, flag):
with self.lock:
if time.time() - self._t1 > 60:
rabbitmq_queue = self._channel_statistics.queue_declare(
queue=self._seed_key, durable=True,
exclusive=False, auto_delete=False
)
self.logger.info(f'{self.__class__} 一分钟内请求了 {self._request_count}次 成功了 {self._request_success_count}次, rabbitmq的{self._seed_key}队列中还有 {rabbitmq_queue.method.message_count} 条消息 ')
self._initialization_count()
if flag == 0:
self._request_count += 1
if flag == 1:
self._request_success_count += 1 # noinspection PyMethodOverriding
def __request_and_extract(self, ch, method, properties, url, meta: OrderedDict, current_retry_times=0):
# 防止有时候页面返回内容不正确,导致解析出错。
if current_retry_times < self._max_parse_retry_times:
# noinspection PyBroadException
try:
self.request_and_extract(url, meta)
ch.basic_ack(delivery_tag=method.delivery_tag)
except Exception as e:
if isinstance(e, VolunteerErrorForSpiderRetry):
pass
else:
self.logger.error(f'第{current_retry_times+1}次发生解析错误的url是 {url} \n {e}', exc_info=self._is_print_detail_exception)
self.__request_and_extract(ch, method, properties, url, meta, current_retry_times + 1)
else:
self.logger.critical(f'解析 {url} 的页面内容达到最大次数{self._max_parse_retry_times}后,仍然失败')
ch.basic_ack(delivery_tag=method.delivery_tag) class BaseRabbitmqSpider(RabbitmqBrokerForSpiderMixin, BaseCustomSpider, metaclass=abc.ABCMeta):
"""
也可以直接继承这一个类。
"""

 



测试单核单进程每分钟可以请求两万次,每分钟最大的具体请求次数与网速/网站响应速度/内容大小有关。 另外也可使用通用消费框架来支持并发和断点和任务用不丢失。在另一片博客。

一个自定义python分布式专用爬虫框架。支持断点爬取和确保消息100%不丢失,哪怕是在爬取进行中随意关停和随意对电脑断电。的更多相关文章

  1. Python之Scrapy爬虫框架安装及简单使用

    题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...

  2. 一个简单的开源PHP爬虫框架『Phpfetcher』

    这篇文章首发在吹水小镇:http://blog.reetsee.com/archives/366 要在手机或者电脑看到更好的图片或代码欢迎到博文原地址.也欢迎到博文原地址批评指正. 转载请注明: 吹水 ...

  3. windows下使用python的scrapy爬虫框架,爬取个人博客文章内容信息

    scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息.关于python的安装和scrapy的安装配置请读者自行查阅相关资料,或者也可以关注我后续的内容. ...

  4. 【python】Scrapy爬虫框架入门

    说明: 本文主要学习Scrapy框架入门,介绍如何使用Scrapy框架爬取页面信息. 项目案例:爬取腾讯招聘页面 https://hr.tencent.com/position.php?&st ...

  5. Python之Scrapy爬虫框架 入门实例(一)

    一.开发环境 1.安装 scrapy 2.安装 python2.7 3.安装编辑器 PyCharm 二.创建scrapy项目pachong 1.在命令行输入命令:scrapy startproject ...

  6. python应用:爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说

    使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母.数字以及下划线<undersco ...

  7. ShutIt:一个基于 Python 的 shell 自动化框架

    ShutIt是一个易于使用的基于shell的自动化框架.它对基于python的expect库(pexpect)进行了包装.你可以把它看作是“没有痛点的expect”.它可以通过pip进行安装. Hel ...

  8. python应用:爬虫框架Scrapy系统学习第三篇——初识scrapy

    scrapy的最通用的爬虫流程:UR2IM U:URL R2:Request 以及 Response I:Item M:More URL 在scrapy shell中打开服务器一个网页 cmd中执行: ...

  9. Python使用Scrapy爬虫框架全站爬取图片并保存本地(妹子图)

    大家可以在Github上clone全部源码. Github:https://github.com/williamzxl/Scrapy_CrawlMeiziTu Scrapy官方文档:http://sc ...

随机推荐

  1. yii2 Gridview网格小部件

    Gridview 网格小部件 一.特点: 1.是yii中功能最强大的小部件之一: 2.非常适合快速建立系统的管理后台. 3.用 dataProvider 键来指定数据的提供者 4.用 filterMo ...

  2. 3ds max 学习笔记(四)--创建物体

    添加物体: 1.初创建物体,从单视图进行创建,便于处于同一平面,在透视图观看效果.2.在基本对象处选择“长方体”:左键开始制作,松开左键此时控制的是长方形的高,然后点击左键完成:注:在max里点击右键 ...

  3. 深入理解JVM(7)——类加载器

    一.类和类加载器 a)        类加载器的作用:将class文件加载到JVM的方法区,并且在方法区中创建一个java.lang.Class对象作为外界访问这个类的接口. b)        类和 ...

  4. learning to generate question headlines 讲座

    渣排版预警! 出发点 新闻用户为什么会点: 主观:用户兴趣/热点事件 客观:新闻标题(新闻入口)/新闻内容(更简单,更有趣) 标题分类: surprise,好奇,负例,数字,你,客观的描述,问题的形式 ...

  5. REST风格的增删改查(1)

    一.RESTFUL风格的CRUD(增删改查)案例 1.需求: ①显示所有员工信息:URI:emps,请求方式:GET ②添加员工所有信息:显示添加页面:URI:emp,请求方式:GET, 添加员工信息 ...

  6. poj1064 Cable master(二分查找,精度)

    https://vjudge.net/problem/POJ-1064 二分就相当于不停地折半试. C++AC,G++WA不知为何,有人说C函数ans那里爆int了,改了之后也没什么用. #inclu ...

  7. [原创]RedisDesktopManager工具使用介绍

    [原创]RedisDesktopManager工具使用介绍 1 RedisDesktopManager简介 一款能够跨平台使用的开源性redis可视化工具.redis desktop manager主 ...

  8. 通过System.CommandLine快速生成支持命令行的应用

    一直以来,当我们想让我们的控制台程序支持命令行启动时,往往需要编写大量代码来实现这一看起来很简单的功能.虽然有一些库可以简化一些操作,但整个过程仍然是一个相当枯燥而乏味的过程.我之前也写过一些文章简单 ...

  9. 一句话Javascript实现价格格式化

    //小数点后面如果超过3位则转换错误,如1.1234 正确的是1.1234但却错误的转换成了1.1,234 var test1 = '1234567890.123' var format = test ...

  10. SpringBoot2.0微信小程序支付多次回调问题

    SpringBoot2.0微信小程序支付多次回调问题 WxJava - 微信开发 Java SDK(开发工具包); 支持包括微信支付.开放平台.公众号.企业微信/企业号.小程序等微信功能的后端开发. ...