scrapy爬虫系列之五--CrawlSpider的使用

功能点：CrawlSpider的基本使用

爬取网站：保监会

主要代码：

cf.py

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
import re
 
class CfSpider(CrawlSpider):    # 继承自CrawlSpider
    """主要是介绍CrawlSpider的用法"""
    name = 'cf'
    allowed_domains = ['circ.gov.cn']
    # 第一次请求的url，如果有特殊需求，可以定义一个parse_start_url函数来处理这个url所对应的响应
    start_urls = ['http://circ.gov.cn/web/site0/tab5240/']
 
    rules = (
        # LinkExtractor 链接提取器，提取url地址
        # callback 可以没有
        # follow 当前url的响应是否重新经过rules来提取url
        # 注意点：
        # 1、两个Rule的callback解析函数，不能直接传递参数
        # 2、如果多个Rule都满足同一个url，会从rules中选择第一个满足的操作
 
        # 详情的url提取器
        Rule(LinkExtractor(allow=r'/web/site0/tab5240/info\d+\.htm'), callback='parse_item'),
        # 列表的url提取器
        Rule(LinkExtractor(allow=r'/web/site0/tab5240/module14430/page\d+\.htm'), follow=True),
    )
 
    # parse是发送url请求的，不能在此定义
    # 解析详情页
    def parse_item(self, response):
        item = {}
        # 通过正则匹配
        item["title"] = re.findall("<!--TitleStart-->(.*?)<!--TitleEnd-->", response.body.decode())[0]
        item["publish_time"]  = re.findall("发布时间：(20\d{2}-\d{2}-\d{2})", response.body.decode())[0]
        print(item)
        print("*"*30)
 
    #     # 此处也可以接着构造请求
    #     yield scrapy.Request(
    #         url,
    #         callback=self.parse_detail,
    #         meta={"item": item}
    #     )
    #
    # # 构造其他属性
    # def parse_detail(self, response):
    #     item = response.meta["item"]
    #     item["price"] = 11
    #     yield item

scrapy爬虫系列之五--CrawlSpider的使用的更多相关文章

[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
scrapy爬虫系列之七--scrapy_redis的使用
功能点:如何发送携带cookie访问登录后的页面,如何发送post请求登录简单介绍: 安装:pip3 install scrapy_redis 在scrapy的基础上实现了更多的功能:如reques ...
scrapy爬虫系列之开头--scrapy知识点
介绍:Scrapy是一个为了爬取网站数据.提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速抓取.Scrapy使用了Twisted异步网络框架,可以加快我们的下载速度. 0.说明: ...
scrapy爬虫系列之一--scrapy的基本用法
功能点:scrapy基本使用爬取网站:传智播客老师完整代码:https://files.cnblogs.com/files/bookwed/first.zip 主要代码: ff.py # -*- ...
scrapy爬虫系列之二--翻页爬取及日志的基本用法
功能点:如何翻页爬取信息,如何发送请求,日志的简单实用爬取网站:腾讯社会招聘网完整代码:https://files.cnblogs.com/files/bookwed/tencent.zip 主要 ...
scrapy爬虫系列之六--模拟登录
功能点:如何发送携带cookie访问登录后的页面,如何发送post请求登录爬取网站:bilibili.github 完整代码:https://files.cnblogs.com/files/book ...
scrapy爬虫系列之三--爬取图片保存到本地
功能点:如何爬取图片,并保存到本地爬取网站:斗鱼主播完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py im ...
scrapy爬虫系列之四--爬取列表和详情
功能点:如何爬取列表页,并根据列表页获取详情页信息? 爬取网站:东莞阳光政务网完整代码:https://files.cnblogs.com/files/bookwed/yangguang.zip 主 ...
scrapy爬虫学习系列五：图片的抓取和下载
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...

随机推荐

1077. Kuchiguse (20)【字符串处理】——PAT (Advanced Level) Practise
题目信息 1077. Kuchiguse (20) 时间限制100 ms 内存限制65536 kB 代码长度限制16000 B The Japanese language is notorious f ...
CentOS系统中last命令的作用
CentOS系统中last命令的作用是显示近期用户或终端的登录情况,它的使用权限是所有用户.通过last命令查看该程序的log,管理员可以获知谁曾经或企图连接系统. 格式 last [—R] [—n] ...
节日（CCF试题）
试题编号: 201503-3试题名称: 节日时间限制: 1.0s内存限制: 256.0MB问题描述有一类节日的日期并不是固定的,而是以“a月的第b个星期c”的形式定下来的,比 ...
【Java面试题】52 java中会存在内存泄漏吗，请简单描述。
所谓内存泄露就是指一个不再被程序使用的对象或变量一直被占据在内存中.Java中有垃圾回收机制,它可以保证一对象不再被引用的时候,即对象编程了孤儿的时候,对象将自动被垃圾回收器从内存中清除掉.由于Jav ...
【Java面试题】43 说出一些常用的类，包，接口，请各举5个
要让人家感觉你对java ee开发很熟,所以,不能仅仅只列core java中的那些东西,要多列你在做ssh项目中涉及的那些东西.就写你最近写的那些程序中涉及的那些类. 常用的类:BufferedRe ...
如何快捷地使用ChemBio 3D检查结构信息
ChemBio 3D是一款三维分子结构演示软件,能够轻松快捷地进行化学结构的制作和立体旋转.ChemBio 3D Ultra 14作为ChemBio 3D的最新版本可以更加快捷地制作化学结构.本教程将 ...
VC++实现编辑框输入提示效果
编辑框在第一次输入时最好给出一个虚拟的输入提示信息文本,这样的效果更佳友好.,我在编辑框添加灰色提示字(html+VC)一文中简单介绍了一些方法,但是效果欠佳. 原始的编辑框CEdit类没有这样的功能 ...
浅谈ITIL
本节内容浅谈ITIL CMDB介绍 Django自定义用户认证 Restful 规范资产管理功能开发浅谈ITIL TIL即IT基础架构库(Information Technology Infra ...
linux大全链接
http://man.linuxde.net/
Python2 与 Python3 区别
print 用法不同:在 Python2 中,print 用法为 print "Hello World"在 Python3 中,print 用法为 print("Hell ...

scrapy爬虫系列之五--CrawlSpider的使用

scrapy爬虫系列之五--CrawlSpider的使用的更多相关文章

随机推荐

热门专题