今日概要

  • CrawlSpider简介
  • CrawlSpider使用
    • 基于CrawlSpider爬虫文件的创建
    • 链接提取器
    • 规则解析器

引入

提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法?

方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。

方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效)。

一.简介

  CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类,其设计原则只是为了爬取start_url列表中网页,而从爬取到的网页中提取出的url进行继续的爬取工作使用CrawlSpider更合适。

二.使用

  1.创建scrapy工程:scrapy startproject projectName

  2.创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com

    --此指令对比以前的指令多了 "-t crawl",表示创建的爬虫文件是基于CrawlSpider这个类的,而不再是Spider这个基类。

  1. # -*- coding: utf-8 -*-
  2. import scrapy
  3. from scrapy.linkextractors import LinkExtractor
  4. from scrapy.spiders import CrawlSpider, Rule
  5.  
  6. class ChoutidemoSpider(CrawlSpider):
  7. name = 'choutiDemo'
  8. #allowed_domains = ['www.chouti.com']
  9. start_urls = ['http://www.chouti.com/']
  10.  
  11. rules = (
  12. Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
  13. )
  14.  
  15. def parse_item(self, response):
  16. i = {}
  17. #i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()
  18. #i['name'] = response.xpath('//div[@id="name"]').extract()
  19. #i['description'] = response.xpath('//div[@id="description"]').extract()
  20. return i

  

- 2,3行:导入CrawlSpider相关模块

  - 7行:表示该爬虫程序是基于CrawlSpider类的

  - 12,13,14行:表示为提取Link规则

  - 16行:解析方法

  CrawlSpider类和Spider类的最大不同是CrawlSpider多了一个rules属性,其作用是定义”提取动作“。在rules中可以包含一个或多个Rule对象,在Rule对象中包含了LinkExtractor对象。

3.1 LinkExtractor:顾名思义,链接提取器。

    LinkExtractor(

         allow=r'Items/',# 满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。

         deny=xxx,  # 满足正则表达式的则不会被提取。

         restrict_xpaths=xxx, # 满足xpath表达式的值会被提取

         restrict_css=xxx, # 满足css表达式的值会被提取

         deny_domains=xxx, # 不会被提取的链接的domains。 

  1.    )

    - 作用:提取response中符合规则的链接。

    

  3.2 Rule : 规则解析器。根据链接提取器中提取到的链接,根据指定规则提取解析器链接网页中的内容。

     Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True)

    - 参数介绍:

      参数1:指定链接提取器

      参数2:指定规则解析器解析数据的规则(回调函数)

      参数3:是否将链接提取器继续作用到链接提取器提取出的链接网页中。当callback为None,参数3的默认值为true。

  3.3 rules=( ):指定不同规则解析器。一个Rule对象表示一种提取规则。

  3.4 CrawlSpider整体爬取流程:

    a)爬虫文件首先根据起始url,获取该url的网页内容

    b)链接提取器会根据指定提取规则将步骤a中网页内容中的链接进行提取

    c)规则解析器会根据指定解析规则将链接提取器中提取到的链接中的网页内容根据指定的规则进行解析

    d)将解析数据封装到item中,然后提交给管道进行持久化存储

4.简单代码实战应用

4.1 爬取糗事百科糗图板块的所有页码数据

  1. # -*- coding: utf-8 -*-
  2. import scrapy
  3. from scrapy.linkextractors import LinkExtractor
  4. from scrapy.spiders import CrawlSpider, Rule
  5.  
  6. class CrawldemoSpider(CrawlSpider):
  7. name = 'qiubai'
  8. #allowed_domains = ['www.qiushibaike.com']
  9. start_urls = ['https://www.qiushibaike.com/pic/']
  10.  
  11. #连接提取器:会去起始url响应回来的页面中提取指定的url
  12. link = LinkExtractor(allow=r'/pic/page/\d+\?') #s=为随机数
  13. link1 = LinkExtractor(allow=r'/pic/$')#爬取第一页
  14. #rules元组中存放的是不同的规则解析器(封装好了某种解析规则)
  15. rules = (
  16. #规则解析器:可以将连接提取器提取到的所有连接表示的页面进行指定规则(回调函数)的解析
  17. Rule(link, callback='parse_item', follow=True),
  18. Rule(link1, callback='parse_item', follow=True),
  19. )
  20.  
  21. def parse_item(self, response):
  22. print(response)

  4.2 爬虫文件:

  1. # -*- coding: utf-8 -*-
  2. import scrapy
  3. from scrapy.linkextractors import LinkExtractor
  4. from scrapy.spiders import CrawlSpider, Rule
  5. from qiubaiBycrawl.items import QiubaibycrawlItem
  6. import re
  7. class QiubaitestSpider(CrawlSpider):
  8. name = 'qiubaiTest'
  9. #起始url
  10. start_urls = ['http://www.qiushibaike.com/']
  11.  
  12. #定义链接提取器,且指定其提取规则
  13. page_link = LinkExtractor(allow=r'/8hr/page/\d+/')
  14.  
  15. rules = (
  16. #定义规则解析器,且指定解析规则通过callback回调函数
  17. Rule(page_link, callback='parse_item', follow=True),
  18. )
  19.  
  20. #自定义规则解析器的解析规则函数
  21. def parse_item(self, response):
  22. div_list = response.xpath('//div[@id="content-left"]/div')
  23.  
  24. for div in div_list:
  25. #定义item
  26. item = QiubaibycrawlItem()
  27. #根据xpath表达式提取糗百中段子的作者
  28. item['author'] = div.xpath('./div/a[2]/h2/text()').extract_first().strip('\n')
  29. #根据xpath表达式提取糗百中段子的内容
  30. item['content'] = div.xpath('.//div[@class="content"]/span/text()').extract_first().strip('\n')
  31.  
  32. yield item #将item提交至管道

  4.2 item文件:

  1. import scrapy
  2.  
  3. class QiubaibycrawlItem(scrapy.Item):
  4. # define the fields for your item here like:
  5. # name = scrapy.Field()
  6. author = scrapy.Field() #作者
  7. content = scrapy.Field() #内容

  4.3 管道文件:

  1. class QiubaibycrawlPipeline(object):
  2.  
  3. def __init__(self):
  4. self.fp = None
  5.  
  6. def open_spider(self,spider):
  7. print('开始爬虫')
  8. self.fp = open('./data.txt','w')
  9.  
  10. def process_item(self, item, spider):
  11. #将爬虫文件提交的item写入文件进行持久化存储
  12. self.fp.write(item['author']+':'+item['content']+'\n')
  13. return item
  14.  
  15. def close_spider(self,spider):
  16. print('结束爬虫')
  17. self.fp.close()

  

16,Python网络爬虫之Scrapy框架(CrawlSpider)的更多相关文章

  1. 16.Python网络爬虫之Scrapy框架(CrawlSpider)

    引入 提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...

  2. Python网络爬虫之Scrapy框架(CrawlSpider)

    目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用 爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...

  3. 网络爬虫之scrapy框架(CrawlSpider)

    一.简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能之外,还派生了其自己独有的更强大的特性和功能.其中最显著的功能就是"LinkExtractor ...

  4. Python逆向爬虫之scrapy框架,非常详细

    爬虫系列目录 目录 Python逆向爬虫之scrapy框架,非常详细 一.爬虫入门 1.1 定义需求 1.2 需求分析 1.2.1 下载某个页面上所有的图片 1.2.2 分页 1.2.3 进行下载图片 ...

  5. 网络爬虫值scrapy框架基础

    简介 Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv.json等文件中. 首先我们安装Scrapy. 其可以应用在数据挖掘,信息处理或存储历史 ...

  6. Python学习---爬虫学习[scrapy框架初识]

    Scrapy Scrapy是一个框架,可以帮助我们进行创建项目,运行项目,可以帮我们下载,解析网页,同时支持cookies和自定义其他功能. Scrapy是一个为了爬取网站数据,提取结构性数据而编写的 ...

  7. python爬虫之Scrapy框架(CrawlSpider)

    提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬去进行实现的(Request模块回调) 方法二:基于CrawlSpi ...

  8. 网络爬虫之scrapy框架设置代理

    前戏 os.environ()简介 os.environ()可以获取到当前进程的环境变量,注意,是当前进程. 如果我们在一个程序中设置了环境变量,另一个程序是无法获取设置的那个变量的. 环境变量是以一 ...

  9. python网络爬虫之scrapy 工程创建以及原理介绍

    执行scrapy startproject XXXX的命令,就会在对应的目录下生成工程 在pycharm中打开此工程目录:并在Run中选择Edit Configuration 点击+创建一个Pytho ...

随机推荐

  1. ubuntu下编译安装mysql记录

         搞了整整一天,好不容易折腾完,在此记录下,下次就省事了.     去官网http://www.php.net/downloads.php下载所需要的php版本,这里我选择5.6.22.    ...

  2. 关于dependencies和devDependencies的理解

    npm install 会下载dependencies和devDependencies中的模块,当使用npm install --production或者注明NODE_ENV变量值为productio ...

  3. 如何处理SAP HANA Web-Based Development Workbench的403 Forbidden错误

    打开SAP云平台上的SAP HANA Web-Based Development Workbench超链接: 遇到错误信息:403 - Forbidden - The server refused t ...

  4. POJ-3080 Blue Jeans---字符串+暴力

    题目链接: https://vjudge.net/problem/POJ-3080 题目大意: 找最长的公共字串(长度>=3),长度相同就找字典序最小的 解题思路: 枚举第一个串的所以子串,处理 ...

  5. Object.prototype.toString的应用

    使用Object.prototype上的原生toString()方法判断数据类型,使用方法如下: Object.prototype.toString.call(value)1.判断基本类型: Obje ...

  6. Oracle grant connect, resource to user语句中的权限

    博主在 Oracle 11g r2上测试(测试日期:2017.10.30): 用sys登陆到oracle中,执行以下两条语句: select * from role_sys_privs WHERE R ...

  7. UsbKey开发

    http://slf-1983.blog.163.com/blog/static/2990236320121113113955119/

  8. mantis基本配置及邮件服务器配置

    邮件服务器配置 在c:\php-5.0.3\php.ini文件中查找smtp,将localhost改为你的发件服务器,如SMTP = smtp.163.com   在php.ini文件中查找sendm ...

  9. BeyondCompare:如何之比较文件内容的不同?

    问题描述: 在使用beyond compare比较文件的时候,常会有很多不同,但是点击打开后,发现内容没有不同.这个是因为工具把文件的日期.大小等非内容因素也比较了进去. 解决方法: 点击“会话” - ...

  10. shell脚本,利用awk计算指定范围内的和。

    期望得到结果如下: vivi 42800Tom 32500John 104500 解题方法如下: 1.利用数组来进行解题.