爬虫（九）：scrapy框架回顾

scrapy文档

一：安装scrapy

a. pip3 install wheel

b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

c. 进入下载目录，执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl

d. pip3 install scrapy

e. 下载并安装pywin32：https://sourceforge.net/projects/pywin32/files/

二：基本操作

（1）新建工程：在创建工程之前先进入想用来保存代码的目录，然后执行

scrapy startproject xxx #创建项目

Microsoft Windows [版本 10.0.16299.309]

(c)  Microsoft Corporation。保留所有权利。

C:\Users\felix>cd C:\Users\felix\PycharmProjects\scrapy_quotes

C:\Users\felix\PycharmProjects\scrapy_quotes>scrapy startproject quotes

New Scrapy project 'quotes', using template directory 'c:\\users\\felix\\appdata\\local\\programs\\python\\python36\\lib\\site-packages\\scrapy\\templates\\project', created in:

    C:\Users\felix\PycharmProjects\scrapy_quotes\quotes

You can start your first spider with:

    cd quotes

    scrapy genspider example example.com

执行这条命令将创建一个新目录：包括的文件如下：

scrapy.cfg：项目配置文件

quotes/：项目python模块，待会代码将从这里导入

quotes/items：项目items文件

quotes/pipelines.py:项目管道文件

quotes/settings.py：项目配置文件

quotes/spiders：放置spider的目录

（2）：创建爬虫

cd quotes # 先进入项目目录

scrapy genspider name name.com # 创建爬虫

scrapy crawl name # 运行爬虫

（3）：创建的爬虫类解析

import scrapy

from quotes.items import QuotesItem

class QuotespiderSpider(scrapy.Spider):

    name = 'quotespider'  # 爬虫名称

    allowed_domains = ['quotes.toscrape.com']  # 允许爬虫访问的域名，可以多个

    start_urls = ['http://quotes.toscrape.com/'] # 爬虫开始的url地址

    def parse(self, response):  # 爬虫返回的数据解析函数

        quotes = response.css('.quote')  # 通过css选择器选择相应的内容

        for quote in quotes:

            item = QuotesItem()  # item做数据持久化的

            text = quote.css('.text::text').extract_first()  # ::text 表示输出文本内容

            author = quote.css('.author::text').extract_first()  # ::text 表示输出文本内容

            tags = quote.css('.tags .tag::text').extract()  # extract_first() 表示找第一个，extract()表示找到所有，并返回一个列表

            item['text'] = text  # 赋值  首先要在items类中创建

            item['tags'] = tags

            item['author'] = author

            yield item  # 生成item 做数据存储

        next = response.css('.pager .next a::attr(href)').extract_first()  # 得到相对的url

        url = response.urljoin(next)  # 获取一个绝对的url，获取下一页的url

        yield scrapy.Request(url=url, callback=self.parse)  # 处理链接，将返回的response交给callback的回调函数

# scrapy shell quotes.toscrape.com  # 进入命令行调试

# scrapy crawl quotes -o quotes.json(.csv  .xml)     # 数据保存，可以保存多个类型

（4）：items类解析

Items是将要装载抓取的数据的容器，它工作方式像python里面的字典，但它提供更多的保护，比如对未定义的字段填充以防止拼写错误。

它通过创建一个scrapy.item.Item类来声明，定义它的属性为scrpy.item.Field对象，就像是一个对象关系映射(ORM).
我们通过将需要的item模型化，来控制获得的站点数据，比如我们要获得站点的名字，url和网站描述，我们定义这三种属性的域。要做到这点，我们编辑在quotes目录下的items.py文件，我们的Item类将会是这样

import scrapy

class QuotesItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    text=scrapy.Field()  #创建文本字段

    author=scrapy.Field() # 创建作者字段

    tags=scrapy.Field()  # 创建标签字段

（5）：pipeline类解析

import pymongo

from scrapy.exceptions import DropItem

# 要使用pipline一定要在设置中指定

class QuotesPipeline(object):

    def process_item(self, item, spider):

        return item

# 一个pipeline要么返回item 要么返回dropitem

class TextPipeline(object):

    def __init__(self):

        self.limit = 50

    def process_item(self, item, spider):
　　　　　# 这里的item为item类中的item
　　　　　# 大于50字的文本进行处理

        if item['text']:

            if len(item['text']) > self.limit:

                item['text'] = item['text'][0:self.limit].rstrip() + '...'

                return item

        else:

            return DropItem('Missing Text')

# 添加数据库的操作

class MongoPipeline(object):

    def __init__(self, mongo_url, mongo_db):
　　　　 # 初始化数据库

        self.mongo_url = mongo_url

        self.mongo_db = mongo_db


　　 # 该类方法可以从设置中读取数据

    @classmethod

    def from_crawler(cls, crawler):

        return cls(

            # 从设置里面获取数据库的设置信息

            mongo_url=crawler.settings.get('MONGO_URL'),

            mongo_db=crawler.settings.get('MONGO_DB')

        )

    def open_spider(self, spider):  # 启动爬虫时做的操作
　　　　 # 初始化数据库

        self.client = pymongo.MongoClient(self.mongo_url)

        self.db = self.client[self.mongo_db]

　　 # 处理item的方法，必须实现返回item或者dropitem

    def process_item(self, item, spider):

        name = item.__class__.__name__  # item的名称

        self.db[name].insert(dict(item))

        return item

    def close_spider(self, spider):

        self.client.close()  # 结束爬虫时关闭数据库

（6）：运行

scrapy crawl quotespider。

爬虫（九）：scrapy框架回顾的更多相关文章

Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
爬虫06 /scrapy框架
爬虫06 /scrapy框架目录爬虫06 /scrapy框架 1. scrapy概述/安装 2. 基本使用 1. 创建工程 2. 数据分析 3. 持久化存储 3. 全栈数据的爬取 4. 五大核心组 ...
Python逆向爬虫之scrapy框架,非常详细
爬虫系列目录目录 Python逆向爬虫之scrapy框架,非常详细一.爬虫入门 1.1 定义需求 1.2 需求分析 1.2.1 下载某个页面上所有的图片 1.2.2 分页 1.2.3 进行下载图片 ...
爬虫之scrapy框架
解析 Scrapy解释 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓 ...
Python爬虫进阶(Scrapy框架爬虫)
准备工作: 配置环境问题什么的我昨天已经写了,那么今天直接安装三个库首先第一步: ...
爬虫之Scrapy框架介绍
Scrapy介绍 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内 ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
python爬虫随笔-scrapy框架(1)——scrapy框架的安装和结构介绍
scrapy框架简介 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试 ...
5、爬虫之scrapy框架
一 scrapy框架简介 1 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Sc ...
Python学习---爬虫学习[scrapy框架初识]
Scrapy Scrapy是一个框架,可以帮助我们进行创建项目,运行项目,可以帮我们下载,解析网页,同时支持cookies和自定义其他功能. Scrapy是一个为了爬取网站数据,提取结构性数据而编写的 ...

随机推荐

Yii2.0 手动添加扩展 redis为例
手动下载yii2-redis扩展包(https://github.com/yiisoft/yii2-redis )并解压将解压后的文件移至/vebdor/yiisoft命名为yii2-redis 打 ...
Consul作为SpringCloud配置中心
一.背景介绍在分布式系统中动态配置中,可以避免重复重启服务,动态更改服务参数等.一句话非常重要. 另外一篇文章也是这样说的,哈哈. Consul 作为Spring 推荐的分布式调度系统其也具备配置中 ...
Golang高并发抓取HTML图片
Golang高并发抓取HTML图片使用准备 1.安装Golang 2.下载爬虫包 go get -v github.com/hunterhug/marmot/util go get -v githu ...
手动实现自己的spring事务注解
spring事务是基于同一个数据连接来实现的,认识到这一点是spring事务的关键,spring事务的关键点便在于在事务中不管执行几次db操作,始终使用的是同一个数据库连接.通过查看源码,我们可以看到 ...
c# 事件 +=和-=有什么区别
+=就是發生新事件的同時通知你: -=就是發生新事件的同時不通知你:
遗传算法python实现
最近看了一下遗传算法,使用轮盘赌选择染色体,使用单点交叉,下面是代码实现(python3) import numpy as np import random from scipy.optimize i ...
iview的table组件中加入超链接组件，可编辑组件，选择组件，日期组件
这篇文章主要介绍了iview的table组件中使用选择框,日期,可编辑表格,超链接等组件. 1.select选择组件 // tableColumn数组响应对象需要传入一个固定的option数组,如果该 ...
ol li 兼容
ol 标签在 chrome 60 和 safari12 缩进不一样. 因为序号距离copy距离不一样,导致显示不一样.解决办法. list-style-position: inside;text-in ...
JavaScript内置一些方法的实现原理--new关键字，call/apply/bind方法--前戏
new关键字,call/apply/bind方法都和this的绑定有关,在学习之前,首先要理解this. 一起来学习一下this吧首先.this是一个对象. 对象很好理解,引用类型值,可以实现如th ...
[LeetCode] 1029. 两地调度 ☆(贪心)
官方题解作差排序描述公司计划面试 2N 人.第 i 人飞往 A 市的费用为 costs[i][0],飞往 B 市的费用为 costs[i][1]. 返回将每个人都飞到某座城市的最低费用,要求每个 ...

爬虫（九）：scrapy框架回顾

爬虫（九）：scrapy框架回顾的更多相关文章

随机推荐

热门专题