scrapy

简介

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

spiders

Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。

import scrapy

class FaiscoSpider(scrapy.Spider):

    name = 'faisco'#spider的名称

    allowed_domains = ['www.faisco.cn']#允许爬取的域名

    start_urls = ['https://www.faisco.cn']#开始爬取的url

	#编写你的爬取代码

    def parse(self, response):

        pass

items

Item 对象是种简单的容器，保存了爬取到得数据。其提供了类似于词典(dictionary-like) 的API以及用于声明可用字段的简单语法。

import scrapy

class template(scrapy.Item):

    name = scrapy.Field()

    price = scrapy.Field()

    img = scrapy.Field()

pipelines

当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。

每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline，或是被丢弃而不再进行处理。

class FaiscoPipeline(object):

	#spider启动时调用

	def open_spider(self, spider):

		pass

	#spider关闭时调用

	def close_spider(self, spider):

		pass		

	#每个item pipeline组件都需要调用该方法，这个方法必须返回一个 Item (或任何继承类)对象， 或是抛出 DropItem 异常，被丢弃的item将不会被之后的pipeline组件所处理。

    def process_item(self, item, spider):

        return item

middlewares

middleware分为download middleware和spider middleware

download middleware

 class scrapy.downloadermiddlewares.DownloaderMiddleware

 	def process_request(request, spider)

 	当每个request通过下载中间件时，该方法被调用。

 	process_request() 必须返回其中之一: 返回 None 、返回一个 Response 对象、返回一个 Request 对象或raise IgnoreRequest 。

 	def process_response(request, response, spider)

 	process_response() 必须返回以下之一: 返回一个 Response 对象、 返回一个 Request 对象或raise一个 IgnoreRequest 异常。

 	def process_exception(request, exception, spider)

 	当下载处理器(download handler)或 process_request() (下载中间件)抛出异常(包括 IgnoreRequest 异常)时， Scrapy调用 process_exception() 。

 	process_exception() 应该返回以下之一: 返回 None 、 一个 Response 对象、或者一个 Request 对象。

spider middleware

 class scrapy.contrib.spidermiddleware.SpiderMiddleware

 	def process_spider_input(response, spider)

 	当response通过spider中间件时，该方法被调用，处理该response。

 	process_spider_input() 应该返回 None 或者抛出一个异常。

 	def process_spider_output(response, result, spider)

 	当Spider处理response返回result时，该方法被调用。

 	def process_spider_exception(response, exception, spider)

 	当spider或(其他spider中间件的) process_spider_input() 跑出异常时， 该方法被调用。

settings

#项目属性

BOT_NAME = 'faisco'

SPIDER_MODULES = ['faisco.spiders']

NEWSPIDER_MODULE = 'faisco.spiders'

# 是否遵守robots协议

ROBOTSTXT_OBEY = True

# 最大并发数

#CONCURRENT_REQUESTS = 32

# 延迟，防止封号

#DOWNLOAD_DELAY = 3

# 是否使用cookie

#COOKIES_ENABLED = False

# 默认请求头，可以加上ua，防止识别为爬虫

#DEFAULT_REQUEST_HEADERS = {

#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

#   'Accept-Language': 'en',

#}

# 配置spider middlewares

#SPIDER_MIDDLEWARES = {

#    'faisco.middlewares.FaiscoSpiderMiddleware': 543,

#}

# 配置download middlerwares

#DOWNLOADER_MIDDLEWARES = {

#    'faisco.middlewares.FaiscoDownloaderMiddleware': 543,

#}

# 配置pipeline

#ITEM_PIPELINES = {

#    'faisco.pipelines.FaiscoPipeline': 300,

#}

# 配置日志

LOG_LEVEL = 'INFO'

LOG_FILE = log_file_path

参考文献

https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html

python爬虫入门（3）----- scrapy的更多相关文章

python爬虫入门(六) Scrapy框架之原理介绍
Scrapy框架 Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬 ...
Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...
1.Python爬虫入门一之综述
要学习Python爬虫,我们要学习的共有以下几点: Python基础知识 Python中urllib和urllib2库的用法 Python正则表达式 Python爬虫框架Scrapy Python爬虫 ...
转 Python爬虫入门一之综述
转自: http://cuiqingcai.com/927.html 静觅 » Python爬虫入门一之综述首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为 ...
爬虫入门三 scrapy
title: 爬虫入门三 scrapy date: 2020-03-14 14:49:00 categories: python tags: crawler scrapy框架入门 1 scrapy简介 ...
python爬虫入门-开发环境与小例子
python爬虫入门开发环境 ubuntu 16.04 sublime pycharm requests库 requests库安装: sudo pip install requests 第一个例子 ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...
Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
Python爬虫入门之正则表达式
在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 1.了解正则表达式正则表达式是对字符串操作的 ...

随机推荐

阿里巴巴开源canal 工具数据同步异常CanalParseException:parse row data failed，column size is not match for table......
一.异常现象截图二.解决方式: 1.背景早期的canal版本(<=1.0.24),在处理表结构的DDL变更时采用了一种简单的策略,在内存里维护了一个当前数据库内表结构的镜像(通过desc ...
利用binarySearch实现抽奖计算逻辑
前言我们平时抽奖总感觉想抽到最高的奖那么难,哈哈当然不会那么容易啦,正巧写了个抽奖的功能,趁着有时间把抽奖的功能实现整理一下,我们要抽奖首先要定义一个奖品的实体类,这个实体类中包含奖品的基本信息,比 ...
PBR（基于物理的渲染）学习笔记
PBR基本介绍 PBR代表基于物理的渲染,本质上还是 gl_FragColor = Emssive + Ambient + Diffuse + Specular 可能高级一些在考虑下AO也就是环境光遮 ...
css条纹背景样式、及方格斜纹背景的实现
一.横向条纹如下代码: background: linear-gradient(#fb3 %, #58a %) 上面代码表示整个图片的上部分20%和下部分20%是对应的纯色,只有中间的部分是渐变色.如 ...
移动端web app要使用rem实现自适应布局:font-size的响应式
关于webAPP的开发最主要解决的就是“自适应自适应布局”.常规的适配有很多做法,例如:流式布局.限死宽度等,但是这些方案都不是最佳的解决方法,而最满足设计需要的是: 元素可以根据屏幕大小而等比列变 ...
MySQL 查询存储过程视图触发器函数索引建表语句数据库版本当前登录用户当前数据库名称
MySQL 查询存储过程视图触发器函数索引建表语句数据库版本当前登录用户当前数据库名称 INFORMATION_SCHEMA.TABLES INFORMATION_SCHEMA. ...
PreparedStatement 防止sql注入练习
使用的数据库 MariaDB 10.5.4版本端口1054 数据库为jt_db,表为user 数据库的建表和插入相关数据代码: create table user( id int pr ...
微软全球资深副总裁对 VS Code 黑宝书的推荐序！VS Code 月活用户已达 1200 万！
前不久,首本 VS Code 中文书终于问世了! 在本书出版之前,我很高兴能邀请到微软全球资深副总裁 Julia Liuson 为本书写推荐序!下面,我们就来看一下 Julia 所写的推荐序的完整内容 ...
从上到下打印二叉树（剑指offer-22）
题目描述从上往下打印出二叉树的每个节点,同层节点从左至右打印. 题目解析使用队列来进行层次遍历,本质上就是宽搜. 题目解答 import java.util.*; /** public class ...
ArrayList源码分析-jdk11 (18.9）
目录 1.概述 2.源码分析 2.1参数 2.2 构造方法 2.2.1 无参构造方法 2.2.2 构造空的具有特定初始容量值方法 2.2.3构造一个包含指定集合元素的列表,按照集合的迭代器返回它们的顺 ...

python爬虫入门（3）----- scrapy