刚接触Scrapy框架，不是很熟悉，之前用webdriver+selenium实现过头条的抓取，但是感觉对于整站抓取，之前的这种用无GUI的浏览器方式，效率不够高，所以尝试用CrawlSpider来实现。

这里通过一个实例加深对Scrapy框架的理解。

本文开发环境：

本文目标：抓取网站https://blog.scrapinghub.com的所有文章标题。

本文目录：

1.首页的布局分析
2.VSCode实现基于Scrapy框架的CrawlSpider爬虫

2.1 创建Scrapy工程
2.2 创建CrawlSpider爬虫
2.3 定义item获取所需属性字段
2.3 修改spider定义抓取规则、存储字段
3. 运行结果
4. 本文源码下载
参考资料

1.首页的布局分析

这个博客网站的页面结构如下图所示，我们的目标是抓取每页中间的item的标题，以及通过crawlspider自动抓取下一页的link链接达到自动抓取全站资源的目标。底部只有下一页的链接。

再来看第二页的布局：

中间的内容跟首页一样，只是在底部的分页导航，多了上一页（首页只有下一页）

所以，文章标题所在布局我们搞清楚了，分页导航的格式也十分简单：https://blog.scrapinghub.com/page/2，

只是最后一个数字不一样，这个数字就代表第几页文章。只是最后一个数字不一样，这个数字就代表第几页文章。

2.VSCode实现基于Scrapy框架的CrawlSpider爬虫

2.1 创建Scrapy工程

终端进入到D盘的tmp目录输入如下命令创建一个名字为blogscrapy的scrapy工程（官方文档：）：

scrapy startproject blogscrapy

2.2 创建CrawlSpider爬虫

终端进入到 D:\tmp\blogscrapy，输入如下命令创建一个名为blogspider，允许爬虫的域名为scrapinghub.com的基于crawlSpider模板的spider爬虫（官方文档：）：

scrapy genspider -t crawl blogspider blog.scrapinghub.com

2.3 定义item获取所需属性字段

items.py的内容如下：

# -*- coding: utf-8 -*-

import scrapy

class BlogscrapyItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title = scrapy.Field()

2.3 修改spider定义抓取规则、存储字段

blog.py的内容如下：

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from blogscrapy.items import BlogscrapyItem

class BlogSpider(CrawlSpider):

    name = 'blog'

    allowed_domains = ['blog.scrapinghub.com']

    start_urls = ['http://blog.scrapinghub.com/']

    rules = (

        Rule(LinkExtractor(restrict_xpaths=('//div[@class="blog-pagination"]/a', )),  callback='parse_item', follow=True),

    )

    def parse_item(self, response):

        for title in response.xpath('//div[@class="post-listing"]/div[@class="post-item"]/div[@class="post-header"]/h2'):

            item = BlogscrapyItem()

            item['title'] = title.xpath('./a/text()').extract_first()

            yield item

pipeline.py的内容如下：

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import json

class BlogscrapyPipeline(object):

    def __init__(self):

        self.file = open('pipeline-result.json', 'a+', encoding='utf-8')

    def process_item(self, item, spider):

        content = json.dumps(dict(item), ensure_ascii=False) + "\n"

        self.file.write(content)

        return item

    def close_spider(self, spider):

        self.file.close()

最后，需要把pipeline的处理加到工程里面才能起作用，编辑工程目录下的settings.py文件，加入以下内容：

ITEM_PIPELINES = {

    'blogscrapy.pipelines.BlogscrapyPipeline': 300,

}

3. 运行结果

上图看到成功爬取了12页内容，每页10条，总共115篇文章。

4. 本文源码下载

下载地址：点我去下载

参考资料

[1]: Scrapy官方文档
[2]: Python3爬取今日头条系列

[3]: 廖雪峰老师的Python3 在线学习手册

[4]: Python3官方文档

[5]: 菜鸟学堂-Python3在线学习

[6]: XPath语法参考

Scrapy 使用CrawlSpider整站抓取文章内容实现的更多相关文章

wget整站抓取、网站抓取功能；下载整个网站；下载网站到本地
wget -r -p -np -k -E http://www.xxx.com 抓取整站 wget -l 1 -p -np -k http://www.xxx.com 抓取第一级 - ...
Scrapy爬虫入门系列4抓取豆瓣Top250电影数据
豆瓣有些电影页面需要登录才能查看. 目录 [隐藏] 1 创建工程 2 定义Item 3 编写爬虫(Spider) 4 存储数据 5 配置文件 6 艺搜参考创建工程 scrapy startproj ...
Node.js 爬虫，自动化抓取文章标题和正文
持续进行中... 目标: 动态User-Agent模拟浏览器 √ 支持Proxy设置,避免被服务器端拒绝 √ 支持多核模式,发挥多核CPU性能 √ 支持核内并发模式 √ 自动解码非英文站点,避免乱码出 ...
如何让搜索引擎抓取AJAX内容？转
越来越多的网站,开始采用"单页面结构"(Single-page application). 整个网站只有一张网页,采用 Ajax 技术,根据用户的输入,加载不同的内容. 这种做法的 ...
如何让搜索引擎抓取AJAX内容？
越来越多的网站,开始采用"单页面结构"(Single-page application). 整个网站只有一张网页,采用Ajax技术,根据用户的输入,加载不同的内容. 这种做法的好处 ...
Python抓取视频内容
Python抓取视频内容 Python 是一种面向对象.解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年.Python语法简洁而清晰,具 ...
【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）
package 网络编程; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileOutpu ...
如何使用angularjs实现抓取页面内容
<html ng-app="myApp"> <head> <title>angularjs-ajax</title> <scr ...
查询数据，从链接地址中爬取文章内容jsoup
查询数据,从链接地址中爬取文章内容 protected void doGet(HttpServletRequest request, HttpServletResponse response) thr ...

随机推荐

Python(字符串操作实例1)一个字符串用空格隔开
# 将字符中单词用空格隔开# 已知传入的字符串中只有字母,每个单词的首字母大写,# 请将每个单词用空格隔开,只保留第一个单词的首字母大写传入:“HelloMyWorld”# 返回“Hello my w ...
gulp构建自动化项目
'use strict'; var gulp = require('gulp'), browserSync = require('browser-sync').create(), SSI = requ ...
在 Windows服务器中启用/禁用SMBv1、SMBv2和SMBv3的方法
本文介绍如何在 SMB 客户端和服务器组件上启用/禁用服务器消息块 SMBv1.SMBv2 和 SMBv3. 注意:建议由专业技术工程师完成以下操作. 禁用 SMBv2 和 SMBv3 的影响我们建 ...
MyBatis配置：在控制台打印SQL语句
1.在spring-mybatis.xml中配置语句注意:value=”classpath:mybatis-config.xml”这个文件如果之前没有,是需要新建的 2.新建mybatis-con ...
lua和java防注入
lua样例 local sql = "SELECT * FROM t_base_person WHERE person_id=%s and bureau_id=%s" sql = ...
pp 总结二
1. return false ES6函数的扩展:箭头函数数组 arr.map() arr.filter() <!DOCTYPE html> <html lang=&qu ...
上传文件---未能找到路径“D:\MyProject\Files\”的一部分
C# 使用控件FileUpload 上传文件,简单实例: protected void btnUpload_Click(object sender, EventArgs e) { string pat ...
在CentOS 7+ 安装Kubernetes入门（单Master）
TL;DR; ***,***,***,重要的事情说三次.如果不会***,这篇文章就没有看下去的意义.作为一个技术人员如果不愿意折腾,很难有所作为.作为一个单纯的技术人员,最好把心思放在技术上,做到真正 ...
PrintDocument打印、预览、打印机设置和打印属性的方法
WindowsForm 使用 PrintDocument打印.预览.打印机设置和打印属性的方法. private void Form1_Load(object sender, System.Event ...
C# 之数字格式化
格式规范的完整形式:{index [,width][:formatstring]} index是此格式程序引用的格式字符串之后的参数,从零开始计数:width(可选) 是要设置格式的字段的宽度,wid ...

Scrapy 使用CrawlSpider整站抓取文章内容实现