scrapy爬虫框架配置--settings

我们可以用一个settings.py做个简单的介绍和解析：
例： ---->

# -*- coding: utf-8 -*-

# Scrapy settings for xigua project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://doc.scrapy.org/en/latest/topics/settings.html
#     https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://doc.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'xigua'    # Scrapy项目的名字,这将用来构造默认 User-Agent,同时也用来log,当您使用 startproject 命令创建项目时其也被自动赋值。

SPIDER_MODULES = ['xigua.spiders']　　#Scrapy搜索spider的模块列表 默认: [xxx.spiders]
NEWSPIDER_MODULE = 'xigua.spiders'　　#使用 genspider 命令创建新spider的模块。默认: 'xxx.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent
#爬取的默认User-Agent，除非被覆盖
#USER_AGENT = 'xigua (+http://www.yourdomain.com)'

# Obey robots.txt rules
#如果启用,Scrapy将会采用 robots.txt策略，常使用不遵循Flase
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#Scrapy downloader 并发请求(concurrent requests)的最大值,默认: 16
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
#未同意网站的请求配置延迟（默认为0）
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
DOWNLOAD_DELAY = 3　　# 下载器延迟时间，下载器在同一网站面前需要等待的时间，该选项可以用来限制爬取速度,减轻服务器压力。同时也支持小数:0.25 以秒为单# The download delay setting will honor only one of:

# 下载延迟设置，只能有一个生效
#CONCURRENT_REQUESTS_PER_DOMAIN = 16　　# 对单个网站进行并发请求的最大值
#CONCURRENT_REQUESTS_PER_IP = 16　　
#对单个ip进行并发请求的最大值，如果非0，则忽略，CONCURRENT_REQUESTS_PER_DOMAIN 设定,使用该设定。 
#也就是说,并发限制将针对IP,而不是网站。该设定也影响 DOWNLOAD_DELAY: 如果 CONCURRENT_REQUESTS_PER_IP 非0,下载延迟应用在IP而不是网站上。

# Disable cookies (enabled by default)
# 禁用cookie（默认情况下启用）
#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
# 禁用Telent控制台（默认启用）
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
# 覆盖默认请求标头，也可以加入请求头，获取同样来自开发着工具，
# 很多网站都会检查客户端的headers，比如豆瓣就是每一个请求都检查headers的user_agent，否则只会返回403，可以开启 USER_AGENT 请求头
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}

# Enable or disable spider middlewares
# 启用或禁用蜘蛛中间件
# See https://doc.scrapy.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    'xigua.middlewares.XiguaSpiderMiddleware': 543,
#}

# Enable or disable downloader middlewares
# 启用或禁用下载器中间件
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    'xigua.middlewares.XiguaDownloaderMiddleware': 543,
#}

# Enable or disable extensions
#启用或禁用扩展程序
# See https://doc.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

# Configure item pipelines
# 配置项目管道，如下载图片的图片管道，分布式爬虫多爬虫的pipeline，结尾int值是优先级，可以理解为权重，以逗号间隔，是个集合
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'xigua.pipelines.XiguaPipeline': 300,
}

# Enable and configure the AutoThrottle extension (disabled by default)
# 启用或配置AutoThrottle扩展（默认情况下禁用）
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True

# The initial download delay
# 初始下载延迟
#AUTOTHROTTLE_START_DELAY = 5

# The maximum download delay to be set in case of high latencies
# 在高延迟的情况下设置最大下载延迟
#AUTOTHROTTLE_MAX_DELAY = 60

# The average number of requests Scrapy should be sending in parallel to each remote server
# Scrapy请求的平均数量应该并行发送每个远程服务器
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0

# Enable showing throttling stats for every response received:
# 启用显示所收到的每个响应的调节统计信息
#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)
# 启用或配置 Http 缓存（默认情况下禁用）
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

这就是一个完整的setting.py的接本情况：
接下来再来详细看看，并且还有哪些可以配置的呢？
-----》

#-----------------------日志文件配置-----------------------------------

# 默认: True,是否启用logging。

# LOG_ENABLED=True

# 默认: 'utf-8',logging使用的编码。

# LOG_ENCODING='utf-8'

# 它是利用它的日志信息可以被格式化的字符串。默认值：'%(asctime)s [%(name)s] %(levelname)s: %(message)s'

# LOG_FORMAT='%(asctime)s [%(name)s] %(levelname)s: %(message)s'

# 它是利用它的日期/时间可以格式化字符串。默认值： '%Y-%m-%d %H:%M:%S'

# LOG_DATEFORMAT='%Y-%m-%d %H:%M:%S'

#日志文件名

#LOG_FILE = "dg.log"

#日志文件级别,默认值：“DEBUG”,log的最低级别。可选的级别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。

LOG_LEVEL = 'WARNING'

# -----------------------------robots协议---------------------------------------------

# Obey robots.txt rules

# robots.txt 是遵循 Robot协议 的一个文件，它保存在网站的服务器中，它的作用是，告诉搜索引擎爬虫，

# 本网站哪些目录下的网页 不希望 你进行爬取收录。在Scrapy启动后，会在第一时间访问网站的 robots.txt 文件，

# 然后决定该网站的爬取范围。

# ROBOTSTXT_OBEY = True

# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率，当爬取目标基数很大时，舍弃部分数据不影响大局，提高效率

RETRY_ENABLED = False

#请求下载超时时间，默认180秒

DOWNLOAD_TIMEOUT=20

# 这是响应的下载器下载的最大尺寸，默认值：1073741824 (1024MB)

# DOWNLOAD_MAXSIZE=1073741824

# 它定义为响应下载警告的大小，默认值：33554432 (32MB)

# DOWNLOAD_WARNSIZE=33554432

# ------------------------全局并发数的一些配置:-------------------------------

# Configure maximum concurrent requests performed by Scrapy (default: 16)

# 默认 Request 并发数：16

# CONCURRENT_REQUESTS = 32

# 默认 Item 并发数：100

# CONCURRENT_ITEMS = 100

# The download delay setting will honor only one of:

# 默认每个域名的并发数：8

#CONCURRENT_REQUESTS_PER_DOMAIN = 16

# 每个IP的最大并发数：0表示忽略

# CONCURRENT_REQUESTS_PER_IP = 0

# Configure a delay for requests for the same website (default: 0)

# See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay

# See also autothrottle settings and docs

#DOWNLOAD_DELAY 会影响 CONCURRENT_REQUESTS，不能使并发显现出来,设置下载延迟

#DOWNLOAD_DELAY = 3

# Disable cookies (enabled by default)

#禁用cookies,有些站点会从cookies中判断是否为爬虫

# COOKIES_ENABLED = True

# COOKIES_DEBUG = True

# Crawl responsibly by identifying yourself (and your website) on the user-agent

# 它定义了在抓取网站所使用的用户代理，默认值：“Scrapy / VERSION“

#USER_AGENT = ' (+http://www.yourdomain.com)'

# Override the default request headers:

DEFAULT_REQUEST_HEADERS = {

  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

  'Accept-Language': 'en',

}

# Enable or disable spider middlewares

# See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html

SPIDER_MIDDLEWARES = {

    'companyNews.middlewares.UserAgentmiddleware': 401,

    'companyNews.middlewares.ProxyMiddleware':426,

}

# Enable or disable downloader middlewares

# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html

DOWNLOADER_MIDDLEWARES = {

    'companyNews.middlewares.UserAgentmiddleware': 400,

    'companyNews.middlewares.ProxyMiddleware':425,

    # 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware':423,

     # 'companyNews.middlewares.CookieMiddleware': 700,

}

MYEXT_ENABLED=True      # 开启扩展

IDLE_NUMBER=12           # 配置空闲持续时间单位为 360个 ，一个时间单位为5s

# Enable or disable extensions

# See http://scrapy.readthedocs.org/en/latest/topics/extensions.html

# 在 EXTENSIONS 配置，激活扩展

EXTENSIONS = {

    # 'scrapy.extensions.telnet.TelnetConsole': None,

    'companyNews.extensions.RedisSpiderSmartIdleClosedExensions': 500,

}

# Configure item pipelines

# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html

# 注意:自定义pipeline的优先级需高于Redispipeline,因为RedisPipeline不会返回item,

# 所以如果RedisPipeline优先级高于自定义pipeline,那么自定义pipeline无法获取到item

ITEM_PIPELINES = {

     #将清除的项目在redis进行处理，# 将RedisPipeline注册到pipeline组件中(这样才能将数据存入Redis)

    # 'scrapy_redis.pipelines.RedisPipeline': 400,

    'companyNews.pipelines.companyNewsPipeline': 300,# 自定义pipeline视情况选择性注册(可选)

}

# Enable and configure HTTP caching (disabled by default)

# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings

# ----------------scrapy默认已经自带了缓存，配置如下-----------------

# 打开缓存

#HTTPCACHE_ENABLED = True

# 设置缓存过期时间（单位：秒）

#HTTPCACHE_EXPIRATION_SECS = 0

# 缓存路径(默认为：.scrapy/httpcache)

#HTTPCACHE_DIR = 'httpcache'

# 忽略的状态码

#HTTPCACHE_IGNORE_HTTP_CODES = []

# HTTPERROR_ALLOWED_CODES = [302, 301]

# 缓存模式(文件缓存)

#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

#-----------------Scrapy-Redis分布式爬虫相关设置如下--------------------------

# Enables scheduling storing requests queue in redis.

#启用Redis调度存储请求队列，使用Scrapy-Redis的调度器,不再使用scrapy的调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# Ensure all spiders share same duplicates filter through redis.

#确保所有的爬虫通过Redis去重，使用Scrapy-Redis的去重组件,不再使用scrapy的去重组件

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 默认请求序列化使用的是pickle 但是我们可以更改为其他类似的。PS：这玩意儿2.X的可以用。3.X的不能用

# SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"

# 使用优先级调度请求队列 （默认使用），

# 使用Scrapy-Redis的从请求集合中取出请求的方式,三种方式择其一即可:

# 分别按(1)请求的优先级/(2)队列FIFO/(先进先出)(3)栈FILO 取出请求（先进后出）

# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

# 可选用的其它队列

SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'

# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue'

# Don't cleanup redis queues, allows to pause/resume crawls.

#不清除Redis队列、这样可以暂停/恢复 爬取，

# 允许暂停,redis请求记录不会丢失(重启爬虫不会重头爬取已爬过的页面)

#SCHEDULER_PERSIST = True

#----------------------redis的地址配置-------------------------------------

# Specify the full Redis URL for connecting (optional).

# If set, this takes precedence over the REDIS_HOST and REDIS_PORT settings.

# 指定用于连接redis的URL（可选）

# 如果设置此项，则此项优先级高于设置的REDIS_HOST 和 REDIS_PORT

# REDIS_URL = 'redis://root:密码@主机ＩＰ:端口'

# REDIS_URL = 'redis://root:123456@192.168.8.30:6379'

REDIS_URL = 'redis://root:%s@%s:%s'%(password_redis,host_redis,port_redis)

# 自定义的redis参数（连接超时之类的）

REDIS_PARAMS={'db': db_redis}

# Specify the host and port to use when connecting to Redis (optional).

# 指定连接到redis时使用的端口和地址（可选）

#REDIS_HOST = '127.0.0.1'

#REDIS_PORT = 6379

#REDIS_PASS = '19940225'



#-----------------------------------------暂时用不到-------------------------------------------------------

# 它定义了将被允许抓取的网址的长度为URL的最大极限，默认值：2083

# URLLENGTH_LIMIT=2083

# 爬取网站最大允许的深度(depth)值,默认值0。如果为0，则没有限制

# DEPTH_LIMIT = 3

# 整数值。用于根据深度调整request优先级。如果为0，则不根据深度进行优先级调整。

# DEPTH_PRIORITY=3

# 最大空闲时间防止分布式爬虫因为等待而关闭

# 这只有当上面设置的队列类是SpiderQueue或SpiderStack时才有效

# 并且当您的蜘蛛首次启动时，也可能会阻止同一时间启动（由于队列为空）

# SCHEDULER_IDLE_BEFORE_CLOSE = 10

# 序列化项目管道作为redis Key存储

# REDIS_ITEMS_KEY = '%(spider)s:items'

# 默认使用ScrapyJSONEncoder进行项目序列化

# You can use any importable path to a callable object.

# REDIS_ITEMS_SERIALIZER = 'json.dumps'

# 自定义redis客户端类

# REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'

# 如果为True，则使用redis的'spop'进行操作。

# 如果需要避免起始网址列表出现重复，这个选项非常有用。开启此选项urls必须通过sadd添加，否则会出现类型错误。

# REDIS_START_URLS_AS_SET = False

# RedisSpider和RedisCrawlSpider默认 start_usls 键

# REDIS_START_URLS_KEY = '%(name)s:start_urls'

# 设置redis使用utf-8之外的编码

# REDIS_ENCODING = 'latin1'

# Disable Telnet Console (enabled by default)

# 它定义是否启用telnetconsole,默认值：True

#TELNETCONSOLE_ENABLED = False

# Enable and configure the AutoThrottle extension (disabled by default)

# See http://doc.scrapy.org/en/latest/topics/autothrottle.html

#AUTOTHROTTLE_ENABLED = True

# The initial download delay

# 开始下载时限速并延迟时间

#AUTOTHROTTLE_START_DELAY = 5

# The maximum download delay to be set in case of high latencies

#高并发请求时最大延迟时间

#AUTOTHROTTLE_MAX_DELAY = 60

# The average number of requests Scrapy should be sending in parallel to

# each remote server

#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0

# Enable showing throttling stats for every response received:

#AUTOTHROTTLE_DEBUG = False


最后再来两条启用调试的命令：
启用调试工具

命令行调试

scrapy shell url 查看网页，不过这种方式可能对于要请求头的网页不行，对于一般的网页还是可以的

scrapy view shell 用来查看动态加载的网页，如果查看的网页用了动态加载，那么用这个命令行打开的网页就是不完整的，肯定缺少了什么

暂停和恢复爬虫
初学者最头疼的事情就是没有处理好异常，当爬虫爬到一半的时候突然因为错误而中断了，但是这时又不能从中断的地方开始继续爬，顿时感觉心里日了狗，但是这里有一个方法可以暂时的存储你爬的状态，当爬虫中断的时候继续打开后依然可以从中断的地方爬，不过虽说持久化可以有效的处理，但是要注意的是当使用cookie临时的模拟登录状态的时候要注意cookie的有效期

只需要在setting.py中JOB_DIR=file_name 其中填的是你的文件目录，注意这里的目录不允许共享，只能存储单独的一个spdire的运行状态，如果你不想在从中断的地方开始运行，只需要将这个文件夹删除即可

当然还有其他的放法：scrapy crawl somespider -s JOBDIR=crawls/somespider-1，这个是在终端启动爬虫的时候调用的，可以通过ctr+c中断，恢复还是输入上面的命令

scrapy爬虫框架配置--settings的更多相关文章

第十八节：Scrapy爬虫框架之settings文件详解
# -*- coding: utf-8 -*- # Scrapy settings for maoyan project## For simplicity, this file contains on ...
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
Python爬虫教程-32-Scrapy 爬虫框架项目 Settings.py 介绍
本篇介绍项目开发的过程中,对 Setting 文件的配置和使用 Python爬虫教程-32-Scrapy 爬虫框架项目 Settings.py 介绍 settings.py 文件的使用想要详细查看 ...
Python-S9-Day126——Scrapy爬虫框架
01 今日内容概要 02 内容回顾和补充:scrapy 03 内容回顾和补充:网络和并发编程 04 Scrapy爬虫框架:pipeline做持久化(一) 05 Scrapy爬虫框架:pipeline做 ...
安装scrapy 爬虫框架
安装scrapy 爬虫框架个人根据学习需要,在Windows搭建scrapy爬虫框架,搭建过程种遇到个别问题,共享出来作为记录. 1.安装python 2.7 1.1下载下载地址 1.2配置环境变 ...
Scrapy 爬虫框架学习笔记(未完，持续更新)
Scrapy 爬虫框架 Scrapy 是一个用 Python 写的 Crawler Framework .它使用 Twisted 这个异步网络库来处理网络通信. Scrapy 框架的主要架构根据它官 ...
Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】
(1).前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...
Python爬虫教程-31-创建 Scrapy 爬虫框架项目
本篇是介绍在 Anaconda 环境下,创建 Scrapy 爬虫框架项目的步骤,且介绍比较详细 Python爬虫教程-31-创建 Scrapy 爬虫框架项目首先说一下,本篇是在 Anaconda 环 ...
第十七节：Scrapy爬虫框架之item.py文件以及spider中使用item
Scrapy原理图: item位于原理图的最左边 item.py文件是报存爬取数据的容器,他使用的方法和字典很相似,但是相比字典item多了额外的保护机制,可以避免拼写错误或者定义错误. 1.创建it ...

随机推荐

iOS-NSdata 与 NSString，Byte数组，UIImage 的相互转换
IOS---NSdata 与 NSString,Byte数组,UIImage 的相互转换 1. NSData 与 NSString NSData-> NSString NSString *aSt ...
Vue + GraphQL初试
基本用法 GraphQL概述 GraphQL基本语法特性 GraphQL类型系统 GraphQL类型系统内置基础类型 GraphQL类型系统内置修饰符 GraphQL工作原理 GraphQL执行过程 ...
【c# 学习笔记】c#中的类
1.什么是类: 在c#中类是一种数据结构,它可以包括数据成员.函数成员(方法.属性.事件.索引器.索引符.实例构造函数.静态构造函数和析构函数.及嵌套类型). 属性是,类中字段和方法的结合体,通过定义 ...
tp5博客项目实战2
改虚拟主机 (用www.tp5.com直接访问替代localhost/blog/tp5/public) 1.host修改位置C:\Windows\System32\drivers\etc 127.0 ...
JDK替换掉系统自带的gij编译工具
解决办法: 在终端里面依次输入以下两句话 alternatives --install /usr/bin/java java /usr/java/jdk1.6.0_11/bin/java 300 al ...
48.javascript基础学习
javascript基础学习: http://www.w3school.com.cn/jsref/index.asp jS的引入方式: 1.行间事件:为某一个具体的元素标签赋予js内容,oncli ...
python数据结构_递归_汉诺塔问题
已经不是第一次写这个汉诺塔问题, 其实递归还真是不太好理解, 因为递归这种是想其实有点反人类, 为什么? 因为不太清楚, 写个循环一目了然, 用递归其实要把核心逻辑理清楚, 要不根本没法进行下去所有 ...
Redis（1.16）Redis监控为什么是单线程？为什么快？
[1]Redis的高并发和快速原因 1.redis是基于内存的,内存的读写速度非常快: 2.redis是单线程的,省去了很多上下文切换线程的时间: 3.redis使用多路复用技术,可以处理并发的连接. ...
长乐培训Day1
T1 魔法照片题目 [题目描述] 如果你看过<哈利·波特>,你就会知道魔法世界里的照片是很神奇的.也许是因为小魔法师佳佳长的太帅,很多人都找他要那种神奇的魔法照片, 而且还都要佳佳和他的 ...
PAT(B) 1014 福尔摩斯的约会（Java）
题目链接:1014 福尔摩斯的约会注意三个字眼:"第1对","第2对","第1对",因此如果你用了循环,别忘了break,因为后面也可能 ...

scrapy爬虫框架配置--settings

scrapy爬虫框架配置--settings的更多相关文章

随机推荐

热门专题