爬虫系列---scrapy全栈数据爬取框架(Crawlspider)
一 简介
crawlspider 是Spider的一个子类,除了继承spider的功能特性外,还派生了自己更加强大的功能。
LinkExtractors链接提取器,Rule规则解析器。
二 强大的链接提取器和规则解析器
1 LinkExtractor 链接提取器
LinkExtractor(
allow=r'Items/',# 满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。
deny=xxx, # 满足正则表达式的则不会被提取。
restrict_xpaths=xxx, # 满足xpath表达式的值会被提取
restrict_css=xxx, # 满足css表达式的值会被提取
deny_domains=xxx, # 不会被提取的链接的domains。
)
作用:提取response中符合规则的链接
2 Rule:规则解析器
Rule(linkExtractor(allow=r'Items/'),callback='parse_item',follow=True)
-参数介绍
参数1:制定链接提取器
参数2:制定规则解析器解析数据的规则(回调函数)
参数3:是否允许链接提取器继续作用到已经提取到的链接网页上提取新的链接,
默认是True,即继续提取。
3 rules=()
制定不同的规则的解析器。一个Rule,一种提取规则。
三 CrawlSpider整体流程
- 爬取文件首先根据起始url,获取改url的网页内容;
- 链接提取器会根据指定提取规则将步骤1中网页内容中的链接进行提取;
- 规则解析器回根据指定解析规则将链接中的网页内容根据制定规则进行解析;
- 将解析数据封装到item中,然后提交给管道进行持久化存储。
四 实战抽屉全站爬取
- 1 创建项目
scrapy start project ChouTi
- 2 创建爬虫文件
cd Chouti scrapy genspider -t crawl choti chouti.com
- 3 爬虫文件 chouti.py
# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from ChouTi.items import ChoutiItem
#LinkExtractor:链接提取器
#Rule:规则解析器 class ChoutiSpider(CrawlSpider):
name = 'chouti'
# allowed_domains = ['xxx.com']
start_urls = ['https://dig.chouti.com/r/scoff/hot/1'] link=LinkExtractor(allow=r'/r/scoff/hot/\d+')
rules = (
Rule(link, callback='parse_item', follow=True),
) def parse_item(self, response):
# print(response)
div_list=response.xpath('//div[@id="content-list"]/div')
for div in div_list:
content=div.xpath('.//div[@class="news-content"]/div[1]/a[1]/text()').extract_first().strip()
author=div.xpath('.//div[@class="part2"]/a[4]//text()').extract_first()
author="".join(author)
item=ChoutiItem()
item['author']=author
item['content']=content
yield item
注意: 多链接解析器书写方式; class ChoutiSpider(CrawlSpider):
name = 'chouti'
# allowed_domains = ['xxx.com']
start_urls = ['https://dig.chouti.com/r/scoff/hot/1'] link=LinkExtractor(allow=r'/r/scoff/hot/\d+')
link2=LinkExtractor(allow='^/text/$') #增加特定页面提取规则
rules = (
Rule(link, callback='parse_item', follow=True),
Rule(link2, callback='parse_item', follow=True),#允许添加多个规则
)
4 items.py
import scrapy class ChoutiItem(scrapy.Item):
# define the fields for your item here like:
content = scrapy.Field()
author = scrapy.Field()
5 pipelines.py
import pymongo class ChoutiPipeline(object):
conn=None def open_spider(self,spider):
self.conn=pymongo.MongoClient(host='127.0.0.1',port=27017)
def process_item(self, item, spider):
# print(item)
self.conn.spider.chouti.insert(item.__dict__)
return item
6 settings.py
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
ROBOTSTXT_OBEY = False
ITEM_PIPELINES = {
'ChouTi.pipelines.ChoutiPipeline': 300,
}
爬虫系列---scrapy全栈数据爬取框架(Crawlspider)的更多相关文章
- 基于CrawlSpider全栈数据爬取
CrawlSpider就是爬虫类Spider的一个子类 使用流程 创建一个基于CrawlSpider的一个爬虫文件 :scrapy genspider -t crawl spider_name www ...
- 爬虫系列4:Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...
- scrapy爬虫系列之二--翻页爬取及日志的基本用法
功能点:如何翻页爬取信息,如何发送请求,日志的简单实用 爬取网站:腾讯社会招聘网 完整代码:https://files.cnblogs.com/files/bookwed/tencent.zip 主要 ...
- Java爬虫系列四:使用selenium-java爬取js异步请求的数据
在之前的系列文章中介绍了如何使用httpclient抓取页面html以及如何用jsoup分析html源文件内容得到我们想要的数据,但是有时候通过这两种方式不能正常抓取到我们想要的数据,比如看如下例子. ...
- 爬虫系列1:Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
- 爬虫系列3:Requests+Xpath 爬取租房网站信息并保存本地
数据保存本地 [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 爬虫系列2:https://www ...
- 爬虫系列(1)-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
- 爬虫系列2:Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...
- Python进行拉勾网数据爬取框架与思路
爬取内容 用交互式的方式输入想查询的职位并循环输出职位简要信息,为了方便阅读,本文使用到的变量并不是以目标变量的英文来命名,而是为了方便而取的变量名,各位大牛请谅解.(因贵网站爬取一定量数据后需要登陆 ...
随机推荐
- 从.Net到Java学习第二篇——IDEA and start spring boot
从.Net到Java学习第一篇——开篇 所谓工欲善其事,必先利其器,做java开发也一样,在比较了目前最流行的几个java IDE(eclipse,myeclipse.IDEA)之后,我果断选择IDE ...
- Python爬虫入门教程 26-100 知乎文章图片爬取器之二
1. 知乎文章图片爬取器之二博客背景 昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中 ...
- Chapter 5 Blood Type——28
Mike came through the door then, glancing from me to Edward. 然后Mike从门里走出来,看了一眼我和Edward The look he g ...
- Struts2与Spring整合
前言 本博文主要讲解Spring怎么与Struts2框架整合... Struts2和Spring的整合关键点: action对象交给Spring来创建 搭建环境 进入jar包 引入jar文件: 1)引 ...
- kubernetes系列06—kubernetes资源清单定义入门
本文收录在容器技术学习系列文章总目录 1.认识kubernetes资源 1.1 常用资源/对象 workload工作负载型资源:pod,ReplicaSet,Deployment,StatefulSe ...
- 痞子衡嵌入式:ARM Cortex-M文件那些事(1)- 源文件(.c/.h/.s)
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家讲的是嵌入式开发里的source文件. 众所周知,嵌入式开发属于偏底层的开发,主要编程语言是C和汇编.所以本文要讲的source文件主要指的就是 ...
- Ruby Enumerator的各种迭代
Enumerator迭代 Mix-in Enumerator获得的迭代方法: each_cons: each_slice: each_with_index: with_index: each_with ...
- 柯里化与python装饰器
当需要对已定义的函数进行功能扩展但又不能去改变原有函数时就会用到装饰器.装饰器在python中是非常常用且重要的功能,是一种python的语法糖. 在理解装饰器之前先看下面的加法函数: def add ...
- eclipse创建的maven项目,pom.xml文件报错解决方法
[错误一:]maven 编译级别过低 [解决办法:] 使用 maven-compiler-plugin 将 maven 编译级别改为 jdk1.6 以上: <!-- java编译插件 --> ...
- 字符串hash入门
简单介绍一下字符串hash 相信大家对于hash都不陌生 翻译过来就是搞砸,乱搞的意思嘛 hash算法广泛应用于计算机的各类领域,像什么md5,文件效验,磁力链接 等等都会用到hash算法 在信息学奥 ...