爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式

1. scrapy图片的爬取/基于管道类实现

  • 爬取流程:

    1. 爬虫类中将解析到的图片地址存储到item,将item提交给指定的管道

    2. 在管道文件中导包:from scrapy.pipelines.images import ImagesPipeline

    3. 基于ImagesPipeline父类,自定义一个管道类

    4. 重写管道类中的如下三个方法:

      指定文件路径

      def file_path(self,request,response=None,info=None):
      # 可以接收get_media_requests传递过来的meta,获取图片名称
      request.meta # 在配置文件设置
      # IMAGES_STORE=‘./imgs’

      对图片地址发送请求

      def get_media_requests(self,item,info):
      yield scrapy.Request(url,meta) # 将item中存储的图片地址进行get请求发送
      # meta就会传递给file_path方法

      返回item,交由下一个管道类处理

      def item_completed(self,request,item,info):
      return item
  • 代码示例

    items.py

    import scrapy
    
    class ImgproItem(scrapy.Item):
    img_src = scrapy.Field()
    img_name = scrapy.Field()

    imgDemo.py

    # -*- coding: utf-8 -*-
    import scrapy
    from imgPro.items import ImgproItem class ImgdemoSpider(scrapy.Spider):
    name = 'imgDemo'
    start_urls = ['http://www.521609.com/daxuemeinv/'] def parse(self, response):
    li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
    for li in li_list:
    img_src = 'http://www.521609.com'+li.xpath('./a[1]/img/@src').extract_first()
    img_name = li.xpath('./a[2]/b/text() | ./a[2]/text()').extract_first()+'.jpg'
    print(img_name)
    item = ImgproItem()
    item['img_src'] = img_src
    item['img_name'] = img_name
    yield item

    pipelines.py

    # -*- coding: utf-8 -*-
    import scrapy
    from scrapy.pipelines.images import ImagesPipeline class ImgproPipeline(ImagesPipeline):
    # 指定文件存储的目录(文件名)
    def file_path(self,request,response=None,info=None):
    # 接收meta
    item = request.meta['item']
    return item['img_name'] # 对指定资源进行请求发送
    def get_media_requests(self,item,info):
    # meta可以传递给file_path
    yield scrapy.Request(item['img_src'],meta={'item':item}) # 用于返回item,将item传递给下一个即将被执行的管道类
    def item_completed(self,request,item,info):
    return item

    settings.py

    ITEM_PIPELINES = {
    'imgPro.pipelines.ImgproPipeline': 300,
    } # 指定文件存储的目录
    IMAGES_STORE = './imgs'

2. 中间件的使用

  • scrapy中间件:/在爬虫中一般使用下载中间件

    下载中间件/DownloaderMiddleware:位于引擎和下载器之间;

    爬虫中间件/SpiderMiddleware:位于引擎和Spider之间

  • 作用:

    拦截所有的请求和响应

  • 拦截请求:

    process_request拦截正常的请求

    process_exception拦截异常的请求,必须有return request返回值,对异常请求重新发送

    篡改请求的头信息:

    process_request
    request.headers['User-Agent'] = 'chorme'

    设置代理:

    process_exception:
    request.meta['proxy'] = 'http://ip:port' # 是字符串不是字典

    注意:process_exception,return request的作用,将修正后的请求重新发送

  • 拦截响应:

    篡改响应数据:

    1. 不满足需求的响应数据对应的一定是不满足需求的响应对象,动态加载的数据就是不满足需求的对象
    2. 直接更换响应对象
  • 代码示例:

    配置文件settings.py:将中间件配置打开

    DOWNLOADER_MIDDLEWARES = {
    'middlePro.middlewares.MiddleproDownloaderMiddleware': 543,
    }

    爬虫文件middle.py:

    # -*- coding: utf-8 -*-
    import scrapy class MiddleSpider(scrapy.Spider):
    name = 'middle'
    start_urls = ['http://www.521609.com/daxuemeinv/'] def parse(self, response):
    li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
    for li in li_list:
    img_src = 'http://www.123'+li.xpath('./a[1]/img/@src').extract_first()
    yield scrapy.Request(img_src)

    中间件middlewares.py

    # -*- coding: utf-8 -*-
    from scrapy import signals import random
    class MiddleproDownloaderMiddleware(object):
    # 拦截正常请求
    # 参数request:拦截到的请求
    user_agent_list = ['UA池']
    def process_request(self, request, spider):
    print('proces_request!!!')
    # UA伪装
    request.headers['User-Agent'] = random.choice(self.user_agent_list)
    return None
    # 拦截所有的响应
    def process_response(self, request, response, spider): return response
    # 拦截发生异常的请求,目的就是为了将异常的请求进行修正,然后将修正之后的正常的请求进行重新发送
    def process_exception(self, request, exception, spider):
    # 代理操作
    request.meta['proxy'] = 'http://ip:port'
    print('i am exception!!!')
    return request

3. selenium在scrapy中的应用

  • selenium在scrapy中的编码流程:

    1. 在爬虫类中实例化浏览器对象:将实例化出来的浏览器作为爬虫类的一个属性;属性可以交互给中间件类

    2. 编写自动化操作:写在中间件的process_response中

    3. 关闭浏览器: 写在爬虫类的closed(self)方法中,只会在关闭的时候执行一次

  • 需求:爬取网易新闻中国内,国际,军事,航工,无人机这五个板块下所有的新闻标题和内容

    分析:

    1. 通过中间件更换不满足需求的响应对象
    2. 在scrapy中应用selenum
    3. 每一个板块中显示的新闻标题是动态加载的

    代码实现:

    settings.py

    # 打开中间件配置
    DOWNLOADER_MIDDLEWARES = {
    'wangyiPro.middlewares.WangyiproDownloaderMiddleware': 543,
    }

    wangyi.py:爬虫文件

    # -*- coding: utf-8 -*-
    import scrapy
    from selenium import webdriver
    from wangyiPro.items import WangyiproItem class WangyiSpider(scrapy.Spider):
    name = 'wangyi'
    start_urls = ['https://news.163.com/'] # 整个项目中涉及的响应对象个数:1+5+n
    # 解析:解析五个新闻板块对应的url
    five_model_urls = []
    bro = webdriver.Chrome(executable_path=r'chromedriver.exe') # 方法只会被调用一次
    def closed(self,spider):
    self.bro.quit() def parse(self, response):
    li_list = response.xpath('//*[@id="index2016_wrap"]/div[1]/div[2]/div[2]/div[2]/div[2]/div/ul/li')
    model_indexs = [3,4,6,7,8]
    for index in model_indexs:
    li_tag = li_list[index]
    # 解析出了每一个板块对应的url
    model_url = li_tag.xpath('./a/@href').extract_first()
    self.five_model_urls.append(model_url)
    # 对每一个板块的url进行手动的请求发送
    yield scrapy.Request(model_url,callback=self.parse_model) # 解析:每一个板块中的新闻标题和新闻详情页的url(两个值都是动态加载出来的)
    def parse_model(self,response):
    # 遇到了不满足需求的响应对象就是当前方法中的response参数
    div_list = response.xpath('/html/body/div/div[3]/div[4]/div[1]/div/div/ul/li/div/div')
    for div in div_list:
    title = div.xpath('./div/div[1]/h3/a/text()').extract_first()
    detail_url = div.xpath('./div/div[1]/h3/a/@href').extract_first()
    item = WangyiproItem()
    item['title'] = title
    if detail_url:
    yield scrapy.Request(detail_url,callback=self.parse_detail,meta={'item':item}) # 爬取新闻详情
    def parse_detail(self,response):
    item = response.meta['item']
    content = response.xpath('//*[@id="endText"]//text()').extract()
    content = ''.join(content)
    item['content'] = content yield item

    middlewares.py

    # -*- coding: utf-8 -*-
    from scrapy import signals
    from scrapy.http import HtmlResponse
    from time import sleep class WangyiproDownloaderMiddleware(object): def process_request(self, request, spider):
    return None # 拦截所有的响应(1+5+n),只有5个响应不满足需求,动态加载数据只能爬取少量数据
    def process_response(self, request, response, spider):
    # request.url:每一个响应对应的url
    # spider.five_model_urls:5个板块对应的url
    if request.url in spider.five_model_urls:
    # 满足if条件的response就是5个板块对应的response
    spider.bro.get(request.url) # 对每一个板块对应的url进行get请求发送
    sleep(3)
    spider.bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    sleep(2)
    page_text = spider.bro.page_source
    new_response = HtmlResponse(url=request.url,body=page_text,encoding='utf-8',request=request)
    return new_response
    else:
    return response def process_exception(self, request, exception, spider):
    pass # 流程总结:
    # 1.将拦截到所有的响应中的指定5个不满足需求的响应对象找出
    # 2.将这5个响应对象删除,实例化5个新的响应对象
    # 3.保证5个新的响应对象中包含动态加载出来的新闻标题数据
    # 4.将满足需求的5个新的响应对象返回

4. CrawlSpider

  • 作用:

    是Spider的一个子类,可以实现全站数据爬取

  • 实现流程:

    1. 创建工程:scrapy startproject proName
    2. 切换到工程目录:cd proName
    3. 创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com
  • 关键点:

    LinkExtracor链接提取器:可以根据指定的规则(allow=正则)进行链接的提取

    Rule规则解析器:将链接提取器提取到的链接进行请求发送,然后根据指定的规则(callback)进行数据解析

    参数follow=True:将链接提取器 继续作用 到链接提取器提取到的链接 所对应的页面源码中

  • 代码示例:CrawlSpider实现深度爬取

    items.py :

    import scrapy
    
    class SunproItem(scrapy.Item):
    title = scrapy.Field()
    status = scrapy.Field() class SunproItem_content(scrapy.Item):
    content = scrapy.Field()

    sun.py/爬虫文件:

    # -*- coding: utf-8 -*-
    import scrapy
    from scrapy.linkextractors import LinkExtractor
    from scrapy.spiders import CrawlSpider, Rule
    from sunPro.items import SunproItem_content,SunproItem class SunSpider(CrawlSpider):
    name = 'sun'
    start_urls = ['http://wz.sun0769.com/index.php/question/questionType?type=4&page=']
    # 实例化了一个链接提取器对象
    # 作用:可以根据指定的规则(allow=(正则))进行链接的提取,筛选链接
    link = LinkExtractor(allow=r'type=4&page=\d+') # 提取页码链接
    link_detail = LinkExtractor(allow=r'question/\d+/\d+\.shtml')
    rules = (
    # 规则解析器
    # 作用:规则解析器可以将链接提取器提取到的链接进行请求发送且进行指定规则(callback)的数据解析
    Rule(link, callback='parse_item', follow=False),
    Rule(link_detail,callback='parse_detail')
    )
    # 该方法调用的次数请求的个数
    def parse_item(self, response):
    tr_list = response.xpath('//*[@id="morelist"]/div/table[2]//tr/td/table//tr')
    for tr in tr_list:
    title = tr.xpath('./td[2]/a[2]/@title').extract_first()
    status = tr.xpath('./td[3]/span/text()').extract_first()
    item = SunproItem()
    item['title'] = title
    item['status'] = status
    yield item def parse_detail(self,response):
    content = response.xpath('/html/body/div[9]/table[2]//tr[1]').extract()
    content = ''.join(content)
    item = SunproItem_content()
    item['content'] = content yield item # link:实例化了一个链接提取器对象
    # 作用:可以根据指定的规则(allow=(正则))进行链接的提取 # Rule:规则解析器
    # 作用:规则解析器可以将链接提取器提取到的链接进行请求发送且进行指定规则(callback)的数据解析

    pipelines.py/管道:

    class SunproPipeline(object):
    def process_item(self, item, spider):
    if item.__class__.__name__ == 'SunproItem_content':
    print(item['content'])
    else:
    print(item['title'],item['status'])
    return item # 获取对象从属的父类的名称:.__class__.__name__

5. 分布式

  • 概念:

    可以使用多台电脑组件一个分布式机群,让其执行同一组程序,对同一组网络资源进行联合爬取。

  • scrapy实现分布式:

    原生的scrapy是无法实现分布式:调度器无法被共享,管道无法被共享

    基于scrapy+redis(scrapy&scrapy-redis组件)实现分布式

  • scrapy-redis组件:

    作用:提供可被共享的管道和调度器

    环境安装:

    pip install scrapy-redis

    编码流程:

    1.创建工程:scrapy startproject proName

    2.切换到工程目录:cd proName

    3.创建crawlspider的爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com

    4.修改一下爬虫类:

    • 导包:from scrapy_redis.spiders import RedisCrawlSpider
    • 修改当前爬虫类的父类:RedisCrawlSpider
    • allowed_domains和start_urls删除
    • 添加一个新属性:redis_key = 'xxxx'可以被共享的调度器队列的名称

    5.修改配置settings.py

    &指定管道

    ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400
    }

    &指定调度器

    # 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 使用scrapy-redis组件自己的调度器
    SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据
    SCHEDULER_PERSIST = True

    &指定redis数据库

    REDIS_HOST = 'redis服务的ip地址'
    REDIS_PORT = 6379

    6.配置redis数据库(redis.windows.conf)

    # 关闭默认绑定
    56Line:#bind 127.0.0.1 # 关闭保护模式
    75line:protected-mode no

    7.启动redis服务(携带配置文件)和客户端

    redis-server.exe redis.windows.conf
    redis-cli

    8.执行工程

    scrapy runspider spider.py
    
    # 先执行工程,让其产生调度器

    9.将起始的url扔入到可以被共享的调度器的队列(sun)中

    在redis-cli中操作:lpush sun www.xxx.com

    10.redis

    redis_key:items:存储的就是爬取到的数据
  • 代码示例:

    fbs.py:爬虫文件

    # -*- coding: utf-8 -*-
    import scrapy
    from scrapy.linkextractors import LinkExtractor
    from scrapy.spiders import CrawlSpider, Rule
    from scrapy_redis.spiders import RedisCrawlSpider
    from fbsPro.items import FbsproItem class FbsSpider(RedisCrawlSpider):
    name = 'fbs'
    # allowed_domains = ['www.xxx.com']
    # start_urls = ['http://www.xxx.com/']
    redis_key = 'sun' # 可以被共享的调度器队列的名称
    link = LinkExtractor(allow=r'type=4&page=\d+')
    rules = (
    Rule(link, callback='parse_item', follow=True),
    ) def parse_item(self, response):
    tr_list = response.xpath('//*[@id="morelist"]/div/table[2]//tr/td/table//tr')
    for tr in tr_list:
    title = tr.xpath('./td[2]/a[2]/@title').extract_first()
    status = tr.xpath('./td[3]/span/text()').extract_first() item = FbsproItem()
    item['title'] = title
    item['status'] = status yield item

    settings.py

    #指定管道
    ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400
    }
    #指定调度器
    # 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 使用scrapy-redis组件自己的调度器
    SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据
    SCHEDULER_PERSIST = True #指定redis
    REDIS_HOST = '192.168.16.64'
    REDIS_PORT = 6379

5. 增量式

  • 概念

    监测网站数据更新的情况。爬取到最新更新出来的数据。

  • 关键点:

    核心:去重,利用set

    记录表:记录爬取过的信息,需要持久化存储,redis中使用set进行持久化存储

  • 需求:url=https://www.4567tv.tv/frim/index1.html,爬取其电影的名称以及详情页的简介

    分析:

    1. 对于深度爬取:一般采用url作为唯一标识进行存储;

      比如:先在首页爬取链接,再根据这些链接爬取相应的内容,爬取图片

    2. 对于非深度爬取:一般通过数据指纹作为数据的唯一标识

      比如:没有动态加载的数据,所有数据都在本页

    3. 数据指纹:一组数据的唯一标识

  • 代码示例:

    movie.py:爬虫文件

    # -*- coding: utf-8 -*-
    import scrapy
    from scrapy.linkextractors import LinkExtractor
    from scrapy.spiders import CrawlSpider, Rule
    from redis import Redis
    from moviePro.items import MovieproItem class MovieSpider(CrawlSpider):
    name = 'movie'
    start_urls = ['https://www.4567tv.tv/frim/index1.html']
    conn = Redis(host='127.0.0.1',port=6379)
    link = LinkExtractor(allow=r'frim/index1-\d+\.html') #提取页码链接
    rules = (
    Rule(link, callback='parse_item', follow=False),
    ) def parse_item(self, response):
    # 电影名称+详情页的url
    li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')
    for li in li_list:
    name = li.xpath('./div/a/@title').extract_first()
    item = MovieproItem()
    item['name'] = name
    detail_url = 'https://www.4567tv.tv'+li.xpath('./div/a/@href').extract_first()
    ex = self.conn.sadd('movie_record',detail_url)
    if ex == 1: # 这部电影之前没有存在于记录表中
    print('有最新更新的数据!!!!!!')
    yield scrapy.Request(url=detail_url,callback=self.parse_detail,meta={'item':item})
    else:
    print('暂无新数据的更新......') def parse_detail(self,response):
    item = response.meta['item']
    desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[2]/text()').extract_first()
    item['desc'] = desc
    yield item

    items.py

    import scrapy
    
    class MovieproItem(scrapy.Item):
    name = scrapy.Field()
    desc = scrapy.Field()

    pipelines.py

    class MovieproPipeline(object):
    def process_item(self, item, spider):
    conn = spider.conn
    conn.lpush('movieData',item)
    return item
  • 增量式总结:

    对于深度爬取,可以在爬取之前对比记录表中是否已经有该url;

    对于非深度爬取,只能是在爬下来之后,加过加密校验后,判断校验值是否相同,进而确定是否保存到数据库/记录表

爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式的更多相关文章

  1. 爬虫 crawlSpider 分布式 增量式 提高效率

    crawlSpider 作用:为了方便提取页面整个链接url,不必使用创参寻找url,通过拉链提取器,将start_urls的全部符合规则的URL地址全部取出 使用:创建文件scrapy startp ...

  2. scrapy图片-爬取哈利波特壁纸

    话不多说,直接开始,直接放上整个程序过程 1.创建工程和生成spiders就不用说了,会用scrapy的都知道. 2.items.py class HarryItem(scrapy.Item): # ...

  3. 网络爬虫之网站图片爬取-python实现

    版本1.5 本次简单添加了四路多线程(由于我电脑CPU是四核的),速度飙升.本想试试xPath,但发现反倒是多此一举,故暂不使用 #-*- coding:utf-8 -*- import re,url ...

  4. python爬虫10 b站爬取使用 selenium+ phantomJS

    但有时候 我们不想要让它打开浏览器去执行 能不能直接在代码里面运行呢 也就是说 有没有一个无形的浏览器呢 恩 phantomJS 就是 它是一个基于 WebKit 的浏览器引擎 可以做到无声无息的操作 ...

  5. 爬虫动态渲染页面爬取之selenium驱动chrome浏览器的使用

    Selenium是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样,可以用其进行网页动态渲染页面的爬取. 支持的浏览器包括IE(7, 8, 9, 10 ...

  6. 爬虫---scrapy全站爬取

    全站爬取1 基于管道的持久化存储 数据解析(爬虫类) 将解析的数据封装到item类型的对象中(爬虫类) 将item提交给管道, yield item(爬虫类) 在管道类的process_item中接手 ...

  7. Python网络爬虫(6)--爬取淘宝模特图片

    经过前面的一些基础学习,我们大致知道了如何爬取并解析一个网页中的信息,这里我们来做一个更有意思的事情,爬取MM图片并保存.网址为https://mm.taobao.com/json/request_t ...

  8. 【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息(2)

    上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...

  9. python网络爬虫之使用scrapy自动爬取多个网页

    前面介绍的scrapy爬虫只能爬取单个网页.如果我们想爬取多个网页.比如网上的小说该如何如何操作呢.比如下面的这样的结构.是小说的第一篇.可以点击返回目录还是下一页 对应的网页代码: 我们再看进入后面 ...

随机推荐

  1. [每日一题2020.06.10]Codeforces Round #644 (Div. 3) ABCDEFG

    花了5个多少小时总算把div3打通一次( 题目链接 problem A 题意 : 两个x*y的矩形不能重叠摆放, 要放进一个正方形正方形边长最小为多少 先求n = min(2x, 2y, x+y) 再 ...

  2. 快捷符号输入小tip(option,alt键的妙用)

    我们知道特殊符号的输入可以通过上档键(shift)加数字来完成.如!@#$%... -> (shift + 1 2 3 4 5...) 但是少有人知道windows中的alt键,或是macos中 ...

  3. UltraEdit常用技巧

    Tip 1: Alt+C 列模式可以说最初选择使用这个文本编辑软件,原因很简单,就是因为“她”具有列编辑模式.如果您还不知道什么是列编辑模式的话,我想您应该好好研究一下啦.这是一个超级“赞”的功能.在 ...

  4. numpy中np.array()与np.asarray的区别以及.tolist

    array 和 asarray 都可以将 结构数据 转化为 ndarray,但是主要区别就是当数据源是ndarray时,array仍然会copy出一个副本,占用新的内存,但asarray不会. 1.输 ...

  5. Java 多线程基础(十)interrupt()和线程终止方式

    Java 多线程基础(十)interrupt()和线程终止方式 一.interrupt() 介绍 interrupt() 定义在 Thread 类中,作用是中断本线程. 本线程中断自己是被允许的:其它 ...

  6. CF #640 (div4)

    CF640 div4 草 迟到半个月的补题 真正的懒狗 再懒就无了 D. Alice, Bob and Candies 题意:n个数字,奇数时间从左侧删数字,偶数时间从右侧删数字,每次删的数字之和必须 ...

  7. 分布式系统框架Spring+Redis+SSO视频课程

    1.视频讲解的参看博客 这应该是第一个简单的分布式系统soa入门的基础,视频中对sao面向服务编程讲解的很透彻,第redis缓存讲解的也比较清楚,讲解了sso单点登录使用token的方式,还有cas实 ...

  8. java8 Optional 类

    package jdk180reduce; import java.util.ArrayList; import java.util.HashMap; import java.util.List; i ...

  9. Python 中的元类到底是什么?这篇恐怕是最清楚的了

    类作为对象 在理解元类之前,您需要掌握 Python 的类.Python 从 Smalltalk 语言中借用了一个非常特殊的类概念. 在大多数语言中,类只是描述如何产生对象的代码段.在 Python ...

  10. ibit-mybatis 2.x 介绍

    原文链接:ibit-mybatis 2.x 介绍 概述 ibit-mybatis 是一个 Mybatis 的增强工具,在 Mybatis 的基础上增加了新的特性与功能,志在简化开发流程.提高开发效率. ...