Link Extractors

Link Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象｡

Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求｡

每个LinkExtractor有唯一的公共方法是 extract_links ,它接收一个 Response 对象,并返回一个 scrapy.link.Link 对象｡Link Extractors,要实例化一次并且 extract_links 方法会根据不同的response调用多次提取链接｡

Link Extractors在 CrawlSpider 类(在Scrapy可用)中使用, 通过一套规则,但你也可以用它在你的Spider中,即使你不是从 CrawlSpider 继承的子类, 因为它的目的很简单: 提取链接｡

上面都是官网解释，看看就行了，这个Rule啊其实就是为了爬取全站内容的写法，首先我们继承的就不是scrapy.spider类了，而是继承CrawlSpider这个类，看源码就回明白CrawlSpider这个类也是继承scrapy.spider类。

　　具体参数：

　　allow：这里用的是re过滤，我们其实就是start_urls加上我们这个匹配到的具体链接下的内容。　 LinkExtractor：故名思议就是链接的筛选器，首先筛选出来我们需要爬取的链接。

　　deny：这个参数跟上面的参数刚好想反，定义我们不想爬取的链接。

　　follow：默认是false，爬取和start_url符合的url。如果是True的话，就是爬取页面内容所有的以start_urls开头的url。

　　restrict_xpaths：使用xpath表达式，和allow共同作用过滤链接。还有一个类似的restrict_css

　　callback：定义我们拿到可以爬取到的url后，要执行的方法，并传入每个链接的response内容（也就是网页内容）

　　注意：rule无论有无callback，都由同一个_parse_response函数处理，只不过他会判断是否有follow和callback

from scrapy.spiders.crawl import Rule, CrawlSpider

from scrapy.linkextractors import LinkExtractor

示例：

from whole_website.items import DoubanSpider_Book

from scrapy.spiders.crawl import Rule, CrawlSpider

from scrapy.linkextractors import LinkExtractor

class DoubanSpider(CrawlSpider):

    name = "douban"

    allowed_domains = ["book.douban.com"]

    start_urls = ['https://book.douban.com/']

    rules = [

        Rule(LinkExtractor(allow='subject/\d+'),callback='parse_items)

    ]

    def parse_items(self, response):

        items = DoubanSpider_Book()

        items['name'] = response.xpath('//*[@id="wrapper"]/h1/span/text()').extract_first()

        items['author'] = response.xpath('//*[@id="info"]//a/text()').extract()

        data = {'book_name':items['name'],

                'book_author':items['author']

                }

        print(data)

参考地址：http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/link-extractors.html

python爬虫scrapy之rules的基本使用的更多相关文章

python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
python爬虫Scrapy(一)-我爬了boss数据
一.概述学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. ...
python爬虫scrapy项目详解（关注、持续更新）
python爬虫scrapy项目(一) 爬取目标:腾讯招聘网站(起始url:https://hr.tencent.com/position.php?keywords=&tid=0&st ...
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
Python爬虫Scrapy框架入门（0）
想学习爬虫,又想了解python语言,有个python高手推荐我看看scrapy. scrapy是一个python爬虫框架,据说很灵活,网上介绍该框架的信息很多,此处不再赘述.专心记录我自己遇到的问题 ...
安装python爬虫scrapy踩过的那些坑和编程外的思考
这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬虫的比较发现开源爬虫scrapy比较好用.但是以前一直用的java和php,对python不熟悉,于是花一天时 ...
Python 爬虫-Scrapy爬虫框架
2017-07-29 17:50:29 Scrapy是一个快速功能强大的网络爬虫框架. Scrapy不是一个函数功能库,而是一个爬虫框架.爬虫框架是实现爬虫功能的一个软件结构和功能组件集合.爬虫框架是 ...
python爬虫scrapy学习之篇二
继上篇<python之urllib2简单解析HTML页面>之后学习使用Python比较有名的爬虫scrapy.网上搜到两篇相应的文档,一篇是较早版本的中文文档Scrapy 0.24 文档, ...
python爬虫scrapy命令工具学习之篇三
命令行工具(Command line tools) 全局命令 startproject settings runspider shell fetch view version 项目命令 crawl c ...

随机推荐

使用c#封装海康SDK出现无法加载 DLL“..\bin\HCNetSDK.dll”: 找不到指定的模块
最近在研究网络摄像头的二次开发,测试了一款海康威视的网络摄像头,程序调试的时候,出现如题的报错. 调试随机自带的demo时,程序运行正常,但当把该程序引入到我自己的程序中时,就开始报错.根据开发软件包 ...
socket编程解决粘包和丢包问题
##socket 丢包粘包解决方式采用固定头部长度(一般为4个字节),包头保存的是包体的长度 header+body 包头+包体下面的例子不是按照上图中规定的格式编写的,但是思路都是一样的,先读出 ...
[HEOI2016/TJOI2016]排序
嘟嘟嘟首先这题的暴力是十分好写的,而且据说能得不少分. 正解写起来不难,就是不太好想. 根据做题经验,我想到了给这个序列转化成01序列,但是接下来我就不会了.还是看了题解. 因为查询只有一个数,所以 ...
路飞学城-Python开发集训-第1章
学习体会: 在参加这次集训之前我自己学过一段时间的Python,看过老男孩的免费视频,自我感觉还行,老师写的代码基本上都能看懂,但是实际呢?....今天是集训第一次交作业的时间,突然发现看似简单升级需 ...
四、Oracle 序列、常用函数、多表连接
一.序列定义:是oracle数据库专门用来产生连续且自动增长的数字的对象创建语法:create sequence 序列名(sq_表名) nocache(无缓存) create sequence sq_ ...
pytorch学习-AUTOGRAD: AUTOMATIC DIFFERENTIATION自动微分
参考:https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner-blitz-autog ...
LCA--倍增法
一般来求LCA有3种方法 1.倍增 2.RMQ+欧拉序 3.tarjan(离线) 本文将倍增求lca 这个算法是很常见很常见的也是较好理解的 (我也不明白假期学长讲的时候我为什么死活都不明白自闭q ...
python读写修改配置文件（ini）
python 有时候参数需要保存到配置文件中接下来总结一下配置文件的读写和修改的操作代码如下: #!/usr/bin/env python # -*- coding: utf- -*- # 读 ...
TIME_WAIT过多的解决方法(转)
1.参考:https://blog.csdn.net/liangzhao_jay/article/details/50546898 2.参考: [Unix 网络编程]TCP状态转换图详解 - wenq ...
Luogu4916 魔力环莫比乌斯反演、组合、生成函数
传送门先不考虑循环同构的限制,那么对于一个满足条件的序列,如果它的循环节长度为\(d\),那么与它同构的环在答案中就会贡献\(d\)次. 所以如果设\(f_i\)表示循环节长度恰好为\(i\)的满足 ...

python爬虫scrapy之rules的基本使用

Link Extractors

python爬虫scrapy之rules的基本使用的更多相关文章

随机推荐

热门专题