scrapy使用细节配置

一、建立项目

1、scrapy startproject 项目名字

2、进入项目：

scrapy genspider 名字不带http的根网址

3、默认模板（或改变模板）

默认模板：class HuaSpider(scrapy.Spider)：

改变模板：scapy genspider -t crwal 名字(hua2) 不带http的根网址:

(class Hua2Spider(CrawlSpider)

4、目录结构

二、setting基本设置

1、log日志输出的级别：

INFO、ERROR......

LOG_LEVEL = 'ERROR'

2、将log写到文件中（自动创建log.txt）

LOG_FILE = './log.txt'

3、robots

是否遵守各大网站的爬虫规则（robots），默认是True，为了得到我们想要的数据，设置ROBOTSTXT_OBEY为F alse: ROBOTSTXT_OBEY = False

查看各大网站的规则：根网址+/robots.txt，例如https://www.baidu.com/robots.txt

4、设置代理middlewares.py

下载中间件设置:

1) 在setting中打开以下配置

DOWNLOADER_MIDDLEWARES = {

'postproject.middlewares.PostprojectDownloaderMiddleware': 543,

}

2）在middlewares.py中添加代理

在class PostprojectDownloaderMiddleware(object):

def process_request(self, request, spider):

公开代理格式：request.meta['proxy'] ='http://ip:port'

私密代理格式：request.meta['proxy'] = 'http://username:password@ip:port'

3）回到setting，解开下载中间件DOWNLOADER_MIDDLEWARES

欢迎关注小婷儿的博客：

csdn：https://blog.csdn.net/u010986753

博客园：http://www.cnblogs.com/xxtalhr/

有问题请在博客下留言或加QQ群：483766429 或联系作者本人 QQ ：87605025

OCP培训说明连接：https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuA

OCM培训说明连接：https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA

小婷儿的python正在成长中，其中还有很多不足之处，随着学习和工作的深入，会对以往的博客内容逐步改进和完善哒。

重要的事说三遍。。。。。。

scrapy （四）基本配置的更多相关文章

第三篇——第二部分——第四文配置SQL Server镜像——非域环境
原文:第三篇--第二部分--第四文配置SQL Server镜像--非域环境本文为非域环境搭建镜像演示,对于域环境搭建,可参照上文:http://blog.csdn.net/dba_huangzj/ ...
Nginx教程(四) Location配置与ReWrite语法
Nginx教程(四) Location配置与ReWrite语法 1 Location语法规则 1.1 Location规则语法规则: location [=|~|~*|^~] /uri/ {- } ...
centOS7 mini配置linux服务器（四）配置jdk
这里简单写一下centos7Mini 安装jdk1.8的全过程. 一.下载jdk,linux版本. 地址:http://www.oracle.com/technetwork/java/javase/ ...
CAS 5.1.x 的搭建和使用（四）—— 配置使用HTTP协议访问的服务端
CAS单点登录系列: CAS 5.1.x 的搭建和使用(一)—— 通过Overlay搭建服务端 CAS5.1.x 的搭建和使用(二)—— 通过Overlay搭建服务端-其它配置说明 CAS5.1.x ...
Python爬虫进阶三之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...
使用亚马逊云服务器EC2做深度学习（四）配置好的系统镜像
这是<使用亚马逊云服务器EC2做深度学习>系列的第四篇文章. (一)申请竞价实例 (二)配置Jupyter Notebook服务器 (三)配置TensorFlow (四)配置好的系统 ...
scrapy框架中间件配置代理
scrapy框架中间件配置代理import random#代理池PROXY_http = [ '106.240.254.138:80', '211.24.102.168:80',]PROXY_http ...
Scrapy笔记10- 动态配置爬虫
Scrapy笔记10- 动态配置爬虫有很多时候我们需要从多个网站爬取所需要的数据,比如我们想爬取多个网站的新闻,将其存储到数据库同一个表中.我们是不是要对每个网站都得去定义一个Spider类呢? 其 ...
Python爬虫进阶之Scrapy框架安装配置
Python爬虫进阶之Scrapy框架安装配置初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此 ...
Cisco基础(四)：配置标准ACL、配置扩展ACL、配置标准命名ACL、配置扩展命名ACL
一.配置标准ACL 目标: 络调通后,保证网络是通畅的.同时也很可能出现未经授权的非法访问.企业网络既要解决连连通的问题,还要解决网络安全的问题. 配置标准ACL实现拒绝PC1(IP地址为192.16 ...

随机推荐

Codeforces445B(SummerTrainingDay06-N 并查集)
B. DZY Loves Chemistry time limit per test:1 second memory limit per test:256 megabytes input:standa ...
Maven 那些破事
deploy 只上传了pom 晚上输命令,打算打包上传到本地库里,然后去服务器上部署新版本 mvn clean package deploy 结果看着mvn的build过程只是上传了pom,去库服务器 ...
微信小程序传参数的几种方法
1,navigator 跳转时 wxml页面(参数多时可用“&”) <navigator url='../index/index?id=1&name=aaa'></n ...
MySQL中使用连接查询
连接查询: 将多张表(可以大于2张)进行记录的连接(按照某个指定的条件进行数据拼接): 最终结果是: 记录数有可能变化, 字段数一定会增加(至少两张表的合并)! 连接查询的意义: 在用户查看数据的时候 ...
linux 新建用户和权限分配
1.创建新用户:testuser 命令:#useradd 选项用户名选项: -c comment 指定一段注释性描述. -d 目录指定用户主目录,如果此目录不存在,则同时使用-m选项,可以创建主 ...
intellij idea 2016.3.5 控制台取消行数限制
有时候我们要输出大量的信息放到控制台显示,但是多了之后就出现最上面的信息被覆盖删除, 因此就需要设置控制台的显示行数,但在idea7之后的版本中,取消了对控制台行数设置选项, 只能通过更改配置文件进行 ...
MySQL主从复制——主库已有数据的解决方案
在上篇文章中我们介绍了基于Docker的Mysql主从搭建,一主多从的搭建过程就是重复了一主一从的从库配置过程,需要注意的是,要保证主从库my.cnf中server-id的唯一性.搭建完成后,可以在主 ...
【three.js练习程序】旋转、缩放场景
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
Gradle 'MYasprj' project refresh failed Error:CreateProcess error=216, 该版本的 %1 与您运行的 Windows 版本不兼容
Gradle ‘MYasprj’ project refresh failed Error:CreateProcess error=216, 该版本的 %1 与您运行的 Windows 版本不兼容.请 ...
Angular 服务的简单使用
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

scrapy （四）基本配置