scrapy增量爬取

开始接触爬虫的时候还是初学Python的那会，用的还是request、bs4、pandas，再后面接触scrapy做个一两个爬虫，觉得还是框架好，可惜都没有记录都忘记了，现在做推荐系统需要爬取一定的文章，所以又把scrapy捡起来。趁着这次机会做一个记录。

目录如下：

环境

本地窗口调试命令

工程目录

xpath选择器

一个简单的增量爬虫示例

配置介绍

环境

自己的环境下安装scrapy肯定用anaconda（再次强调anaconda的优越性

本地窗口调试与运行

开发的时候可以利用scrapy自带的调试功能进行模拟请求，这样request、response都会与后面代码保持一样。

# 测试请求某网站

scrapy shell URL

# 设置请求头

scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"  URL

# 指定爬虫内容输出文件格式（json、csv等

scrapy crawl SPIDER_NAME -o FILE_NAME.csv

# 创建爬虫工程

scrapy startproject  articles # 在当前目录创建一个scrapy工程

新工程结构介绍

# spiders文件下存放所有爬虫，item.py格式化数据输出

# middlewares.py 设置请求细节（请求头之类的），pipelines.py为数据输出的管道，每一个封装好的item都会经过这里

# settings.py 对工程进行全局设置（存放配置

├── articles

│   ├── articles

│   │   ├── __init__.py

│   │   ├── items.py

│   │   ├── middlewares.py

│   │   ├── pipelines.py

│   │   ├── settings.py

│   │   └── spiders

│   │       ├── healthy_living.py

│   │       ├── __init__.py

│   │       └── people_health.py

│   └── scrapy.cfg

├── README.en.md

└── README.md

页面解析神器——Xpath选择器

scrapy自带xpath选择器，很方便，简单介绍一些常用的

# 全站爬取神器--LinkExtractor，可以自动获取该标签下的所有url跟text（因为网站结构大都一个套路

from scrapy.linkextractors import LinkExtractor

le = LinkExtractor(restrict_xpaths="//ul[@class='nav2_UL_1 clearFix']")# 返回一个迭代器，通过循环(for i in le)，可获取url(i.url)  (i.text)

# 获取属性class为所有aa的div标签内容中的内容

response.xpath("//div[@class='aa']/text()").extract()		# '//'代表获取所有，'/'代表获取第一个，类似的可以找属性为ul的其它标签

# 获取内容包含“下一页”的所有a标签中包含的链接（提取下一页链接神器

response.xpath("//a[contains(text(),'下一页')]/@href").extract()

一个简单的增量爬取示例

这里增量爬取的思想很简单：目标网站的数据都是按照时间排列的，所以在对某个连接进行request之前，先查询数据库中有没有这条数据，如果有，就停止爬虫，如果没有发起请求

class HealthyLiving(scrapy.Spider):

    # 一定要一个全局唯一的爬虫名称，命令行启动的时候需要指定该名称

    name = "healthy_living"

    # 指定爬虫入口，scrapy支持多入口，所以一定是lis形式

    start_urls = ['http://www.jkb.com.cn/healthyLiving/']

    '''

    抓取大类标签入口

    '''

    def parse(self, response):

        le = LinkExtractor(restrict_xpaths="//ul[@class='nav2_UL_1 clearFix']")

        for link in le.extract_links(response)[1:-1]:

            tag = link.text

            # 将这一级提取到的信息，通过请求头传递给下一级（这里是为了给数据打标签

            meta = {"tag": tag}

            # 依次解析每一个链接，并传递到下一级进行继续爬取

            yield scrapy.Request(link.url, callback=self.parse_articles, meta=meta)

    '''

    抓取页面内的文章链接及下一页链接

    '''

    def parse_articles(self, response):

        # 接收上一级传递的信息

        meta = response.meta

        article_links = response.xpath("//div[@class='txt']/h4/a/@href").extract()

        for link in article_links:

            res = self.collection.find_one({"article_url": link}, {"article_url": 1})

            full_meta = dict(meta)

            # 将文章链接传入下一级

            full_meta.update({"article_url": link})

            if res is None:

                yield scrapy.Request(link, callback=self.parse_article, meta=full_meta)

            else:

                return

        next_page = response.xpath("//div[@class='page']//a[contains(text(),'»')]/@href").extract()[0]

        if next_page:

            yield scrapy.Request(next_page, callback=self.parse_articles, meta=meta)

# 最后解析页面，并输出

    def parse_article(self, response):

     # 从item.py中导入数据封装格式

        article_item = ArticlesItem()

        meta = response.meta

        # 利用xpath提取页面信息并封装成item

        try:

            article_item["tag"] = ""

            #  ... 省略

        finally:

            yield article_item

工程配置介绍

设置请求头、配置数据库

# 设置请求头，在middlewares.py中设定，在settings.py中启用

class RandomUA(object):

    user_agents = [

            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit"

            "/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36",

            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",

            "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit"

            "/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16"

        ]

    def process_request(self, request, spider):

        request.headers["User-Agent"] = random.choice(self.user_agents)

# 设置数据入库处理，在pipeline.py进行配置，在settings.py进行启用

class MongoPipeline(object):

    def __init__(self, mongo_uri, mongo_db):

        self.mongo_uri = mongo_uri

        self.mongo_db = mongo_db

    @classmethod

    def from_crawler(cls, crawler):

        return cls(

            mongo_uri=crawler.settings.get('MONGO_URI'),

            mongo_db=crawler.settings.get('MONGO_DB')

        )

    def open_spider(self, spider):

        print("开始爬取", datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))

        self.client = pymongo.MongoClient(self.mongo_uri)

        self.db = self.client[self.mongo_db]

    def process_item(self, item, spider):

        data = self.db[item.collection].find_one({"title": item["title"], "date": item["date"]})

        if data is None:

            self.db[item.collection].insert(dict(item))

        # else:

        #     self.close_spider(self, spider)

        return item

    def close_spider(self, spider):

        print("爬取结束", datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))

        self.client.close()

# 在settings.py启动：请求头的修改，数据库的配置

DOWNLOADER_MIDDLEWARES = {

   # 'articles.middlewares.ArticlesDownloaderMiddleware': 543,

   'articles.middlewares.RandomUA': 543,# 543代表优先级，数字越低优先级越高

}

ITEM_PIPELINES = {

   'articles.pipelines.MongoPipeline': 300,

}

# 一些其它配置

ROBOTSTXT_OBEY = True # 是否遵守网站的robot协议

FEED_EXPORT_ENCODING = 'utf-8' # 指定数据输出的编码格式

## 数据库配置

MONGO_URI = ''

MONGO_DB = ''

MONGO_PORT = 27017

MONGO_COLLECTION = ''

scrapy增量爬取的更多相关文章

scrapy过滤重复数据和增量爬取
原文链接前言这篇笔记基于上上篇笔记的---<scrapy电影天堂实战(二)创建爬虫项目>,而这篇又涉及redis,所以又先熟悉了下redis,记录了下<redis基础笔记> ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
使用scrapy实现去重，使用Redis实现增量爬取
面试场景: 要求对正在爬取的内容与mysql数据库中的数据进行比较去重解决方式: 通过Redis来作为中间件,通过url来确保爬过的数据不会再爬,做到增量爬取. Redis数据库其实就是一个中间件, ...
webmagic 增量爬取
webmagic 是一个很好并且很简单的爬虫框架,其教程网址:http://my.oschina.net/flashsword/blog/180623 webmagic参考了scrapy的模块划分, ...
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
使用scrapy框架爬取自己的博文（2）
之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ...
如何提高scrapy的爬取效率
提高scrapy的爬取效率增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加.在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置 ...
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...

随机推荐

linux内核中的wait_event_interruptible_timeout接口解析
1. 原型 #define wait_event_interruptible_timeout(wq_head, condition, timeout) \ ({ \ long __ret = time ...
java time
package cn.itcast_04; import java.text.SimpleDateFormat; import java.util.Date; public ...
Eclipse部署时项目中依赖的jar包不能部署到服务器WEB-IN下lib目录
转: Eclipse部署时项目lib下jar包不能部署到服务器WEB-IN下lib目录及Eclipse下tomcat服务器配置修改 2018年04月07日 11:04:19 拾悦酒吧阅读数 1046 ...
Vs code调试Dart语言
1.下载Dart SDK,地址:Dart Windows下载安装稳定版本,安装完看看有没有配置系统变量. 2.在VS code中安装Dart和Code Runner插件: 3.如果Dart有乱码输出 ...
React Native登录注册页面实现空白处收起键盘
其实很简单,直接使用ScrollView作为父视图即可.有木有很神奇啊,以前都还不知道呢.....
【JS新手教程】弹出两层div，及在LODOP内嵌上层
前面的博文有个简单的弹出div层[JS新手教程]浏览器弹出div层1,有一层,不过为了提示,一般会不让用户可以点击该提示之外的地方的.如果让用户弹出层后,把其他的按钮和链接都设置不可用应该比较麻烦,如 ...
checklist和基础安全知识
checklist和基础安全知识 https://book.yunzhan365.com/umta/rtnp/mobile/index.html 网络安全科普小册子 http://sec.cuc.ed ...
Shell中特殊字符的含义
$0 这个程式的执行名字 $n 这个程式的第n个参数值,n=1..9 $* 这个程式的所有参数,此选项参数可超过9个. $# 这个程式的参数个数 $$ 这个程式的PID(脚本运行的当前进程ID号) $ ...
Fabric docker-compose volumes配置解析
chaincode: container_name: chaincode image: hyperledger/fabric-ccenv tty: true environment: - GOPATH ...
【并行计算与CUDA开发】英伟达硬件加速编解码
硬件加速并行计算 OpenCL OpenCL API VS SDK 英伟达硬件编解码方案基于 OpenCL 的 API 自己写一个编解码器使用 SDK 中的编解码接口使用编码器对于 OpenC ...