Scrapy-settings.py常规配置

# Scrapy settings for scrapy_demo project

#

# For simplicity, this file contains only settings considered important or

# commonly used. You can find more settings consulting the documentation:

#

#     https://docs.scrapy.org/en/latest/topics/settings.html

#     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html

#     https://docs.scrapy.org/en/latest/topics/spider-middleware.html

# 爬虫项目名，在你使用scrapy startproject <项目名> 时设置的。

BOT_NAME = "scrapy_demo"

# 爬虫文件模块所在的路径

SPIDER_MODULES = ["scrapy_demo.spiders"]

# 使用命令scrapy genspider 生成爬虫文件时存放文件的路径

NEWSPIDER_MODULE = "scrapy_demo.spiders"

# Crawl responsibly by identifying yourself (and your website) on the user-agent

# 可以在这里设置UA，也可以在默认的请求头配置DEFAULT_REQUEST_HEADERS中设置

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 SE 2.X MetaSr 1.0'

# Obey robots.txt rules

# 遵守 robots.txt 规则，默认为True（遵守就不要爬了...）

# ROBOTSTXT_OBEY = True

ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)

# 配置 Scrapy 执行的最大并发请求数（针对整个scrapy）

#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)

# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay

# See also autothrottle settings and docs

# 为同一网站的请求配置延迟（默认值：0）

# 请参阅 https://docs.scrapy.org/en/latest/topics/settings.html#download-delay

# 另请参阅自动节流设置和文档

DOWNLOAD_DELAY = 5

# The download delay setting will honor only one of:

# 下载并发延迟设置（只接收下列两个中的其中一个）

#CONCURRENT_REQUESTS_PER_DOMAIN = 16   # 针对每个domain的并发最大请求数

#CONCURRENT_REQUESTS_PER_IP = 16   # 针对每个IP的并发最大请求数，如果和上面的同时开启，这个设置优先级比较大。

# Disable cookies (enabled by default)

# 是否启动Cookies，默认是启用的。有些网站并不需要使用cookies就能爬，关闭会增加效率。

#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)

#TELNETCONSOLE_ENABLED = False

# Override the default request headers:

# 覆盖默认的请求头

# （也可以在这里设置UA）

#DEFAULT_REQUEST_HEADERS = {

#    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",

#    "Accept-Language": "en",

#}

# Enable or disable spider middlewares

# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html

#SPIDER_MIDDLEWARES = {

#    "scrapy_demo.middlewares.ScrapyDemoSpiderMiddleware": 543,

#}

# Enable or disable downloader middlewares

# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html

# 下载器中间件，可以在中间件中统一处理UA、代理IP，例如随机选择UA、代理IP

#DOWNLOADER_MIDDLEWARES = {

#    "scrapy_demo.middlewares.ScrapyDemoDownloaderMiddleware": 543,

#}

# Enable or disable extensions

# See https://docs.scrapy.org/en/latest/topics/extensions.html

#EXTENSIONS = {

#    "scrapy.extensions.telnet.TelnetConsole": None,

#}

# Configure item pipelines

# 配置pipelines，你写的pipelines必须在这里配置启动，就好像django的子应用需要注册一样

# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

   "scrapy_demo.pipelines.ScrapyDemoPipeline": 300,  # 这里的数值是定义优先级，数字越小，优先级越高。

}

# Enable and configure the AutoThrottle extension (disabled by default)

# See https://docs.scrapy.org/en/latest/topics/autothrottle.html

# 自动限流插件

#AUTOTHROTTLE_ENABLED = True

# The initial download delay

#AUTOTHROTTLE_START_DELAY = 5

# The maximum download delay to be set in case of high latencies

#AUTOTHROTTLE_MAX_DELAY = 60

# The average number of requests Scrapy should be sending in parallel to

# each remote server

#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0

# Enable showing throttling stats for every response received:

#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)

# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings

#HTTPCACHE_ENABLED = True

#HTTPCACHE_EXPIRATION_SECS = 0

#HTTPCACHE_DIR = "httpcache"

#HTTPCACHE_IGNORE_HTTP_CODES = []

#HTTPCACHE_STORAGE = "scrapy.extensions.httpcache.FilesystemCacheStorage"

# Set settings whose default value is deprecated to a future-proof value

REQUEST_FINGERPRINTER_IMPLEMENTATION = "2.7"

TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"

# 定义FEED数据输出时默认的编码格式

FEED_EXPORT_ENCODING = "utf-8"

# 下载器的默认超时时间（默认为180秒）

# 这里设置的时每个爬虫的默认下载器超时时间，也可以使用request.meta["download_timeout"]来为每个请求设置下载器的超时时间

DOWNLOAD_TIMEOUT = 20

##### 自定义设置  ###

# IP地址池（一般IP地址池都是放在redis中维护，因为快呀！！）

IP_PROXY_POOL = (

   "127.0.0.1:6789",

   "127.0.0.1:6789",

   "127.0.0.1:6789",

   "127.0.0.1:6789",

)

Scrapy-settings.py常规配置的更多相关文章

调用settings.py的配置信息作为全局使用
项目中一些比较零散的信息可以保存在数据库,也可以保存在settings.py里面并且这些变量也可以像引用数据里面的数据使用, 可以把信息保存在settings.py里面,也可以保存在数据 ...
settings.py常规配置项
settings.py常见配置项 1. 配置Django_Admin依照中文界面显示 LANGUAGE_CODE = 'zh-hans' 2. 数据库配置(默认使用sqlite3) 使用MySQL的配 ...
settings.py相关配置
INSTALLED_APPS #配置项目绑定的应用 TEMPLATES #配置项目使用的模板引擎 DATABASES #设定绑定的数据库 TIME_ZONE #设定时区,时区的设定可能 ...
scrapy 为每个pipeline配置spider
在settings.py里面配置pipeline,这里的配置的pipeline会作用于所有的spider,我们可以为每一个spider配置不同的pipeline, 设置 Spider 的 custom ...
0007 settings.py配置文件详解
01 DEBUG调试配置开发期设置为True,发布时设置为False 02 INSTALLED_APPS已安装的APP配置 INSTALLED_APPS = [ 'django.contrib.ad ...
scrapy实现数据持久化、数据库连接、图片文件下载及settings.py配置
数据持久化的两种方式:(1)基于终端指令的持久化存储:(2)基于管道的持久化存储基于终端指令的持久化存储在爬虫文件的parse方法中必须要return可迭代对象类型(通常为列表或字典等)的返回值, ...
分布式爬虫scrapy-redis中settings.py中的配置信息
SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 使用scrapy-redis的调度器 ITEM_PIPELINES = { 'sc ...
【5】Django项目配置settings.py详解
夫唯不争,故天下莫能与之争 --老子<道德经> 本节内容 1.项目配置文件settings.py介绍 2.数据库配置[MySQL] 3.创建模型对象并和数据库同步 4.python官方提供 ...
django项目settings.py的基础配置
一个新的django项目初始需要配置settings.py文件: 1. 项目路径配置新建一个apps文件夹,把所有的项目都放在apps文件夹下,比如apps下有一个message项目,如果不进行此项 ...
0004 工程配置settings.py
两个目录的区别: 工程目录是指包含manage.py文件的目录配置目录是批包含settings.py文件的目录在配置目录中找到并打工settings.py文件,做以下配置: 01 DEBUG DE ...

随机推荐

聊聊HuggingFace如何处理大模型下海量数据集
翻译自: Big data? Datasets to the rescue! 如今,使用大GB的数据集并不罕见,特别是从头开始预训练像BERT或GPT-2这样的Tranformer模型.在这样的情况下 ...
KRPano中文教程文档PDF版本下载
KRPano中文教程文档PDF版本下载下载地址:https://pan.baidu.com/s/1qXIZ2os 感谢KRPano技术解密群小伙伴:斌仔分享中文文档目录: 概述文件说明krpano ...
Unity 游戏开发、02 基础篇 | 知识补充、简单使用动画、动画状态机
前置笔记(由浅入深) Unity 游戏开发.01 基础篇 2 场景操作 3D场景 Q 手型工具(鼠标中键):上下左右移动场景 ALT + 鼠标左键:以视图为中心旋转鼠标右键:以观察者为中心旋转 SH ...
WASI support in Go
原文在这里. 由 Johan Brandhorst-Satzkorn, Julien Fabre, Damian Gryski, Evan Phoenix, and Achille Roussel 发 ...
Vue源码学习(五):<templete>渲染第四步,生成虚拟dom并将其转换为真实dom
好家伙, 前情提要: 在上一篇我们已经成功将ast语法树转换为渲染函数现在我们继续 1.项目目录代码已开源https://github.com/Fattiger4399/analytic ...
Solution -「洛谷 P5046」「YunoOI 2019 模拟赛」Yuno loves sqrt technology I
Description Link. 无修改区间求逆序对. Solution 首先有一个显然的 \(\Theta(N\sqrt{N}\log_{2}N)\) 做法,由于过不了所以我就不废话. 其实有了 ...
常用设计模式（Java）
目录设计模式引入 1. 什么是设计模式 2. 学习设计模式的意义 3. 设计模式的基本要素 4. OOP七大原则 1.单例模式 1. 饿汉式单例 2. 懒汉式单例 3. 内部类实现单例 4. 反射会 ...
关于 iPhone 上的相机功能
关于 iPhone 上的相机功能了解 iPhone 上的摄影风格.快录功能.超广角摄像头和其他相机功能. 通过摄影风格功能锁定您的风格借助 iPhone 13 各款机型和 iPhone SE( ...
使用 Kubernetes 简化平台工程
平台工程在现代应用程序开发和部署中发挥的作用至关重要.随着软件应用程序变得越来越复杂和分散,对稳健且可扩展的基础设施的需求变得越来越重要.这就是平台工程的作用所在,它是支持整个软件开发生命周期的支柱. ...
监控报警体系：Prometheus和Grafana
总体 prometheus全链路监控报警,在当今云原生时代可观测领域,Prometheus + Grafana 成为可观测性事实标准. 采集数据:运维团队可以使用 Prometheus 监控云原生 K ...

Scrapy-settings.py常规配置

Scrapy-settings.py常规配置的更多相关文章

随机推荐

热门专题