scrapy知识积累

Scrapy 中文文档
https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html

创建项目

scrapy startproject ****（项目名）

创建一个基础爬虫类

scrapy genspider ****（spiders名）  "–---"（爬虫作用范围）

例：scrapy genspider meiju meijutt.com

scrapy genspider -t 模板名字 爬虫名字 爬虫的网址

执行命令，运行程序

scrapy crawl ****(爬虫名).

用于调试
scrapy shell 爬虫的网址

例：scrapy shell meijutt.com

items.py 负责数据模型的建立，类似于实体类。存放的是我们要爬取数据的字段信息
middlewares.py 自己定义的中间件。
pipelines.py 负责对spider返回数据的处理。可以让写入到数据库，也可以让写入到文件等等。
settings.py 负责对整个爬虫的配置。
spiders目录 负责存放继承自scrapy的爬虫类。为主要的爬虫代码，包括了对页面的请求以及页面的处理
scrapy.cfg scrapy基础配置

Scrapy爬虫入门教程十三 Settings（设置）

通过python代码运行spider项目:

在scrapy.cfg同一目录下创建python文件

from scrapy import cmdline

cmdline.execute("scrapy crawl 爬虫名".split())

通过python代码启动spider程序:

 from twisted.internet import reactor, defer

 from scrapy.crawler import CrawlerProcess

 from scrapy.utils.project import get_project_settings

 from xx.xx.spiders.xx import xxSpider

 spider = xxSpider()

 settings = get_project_settings()

 crawler = CrawlerProcess(settings)

 dfs = set()

 d = crawler.crawl(xxSpider)

 dfs.add(d)

 defer.DeferredList(dfs).addBoth(lambda _: reactor.stop())

 reactor.run()

http code  http://www.runoob.com/http/http-status-codes.html
https://www.cnblogs.com/yezuhui/p/6850535.html
　　1**  信息，服务器收到请求，需要请求者继续执行操作
　　2**  成功，操作被成功接收并处理
　　3**  重定向，需要进一步的操作以完成请求
　　4**  客户端错误，请求包含语法错误或无法完成请求
　　　　400代表客户端发送的请求有语法错误，401代表访问的页面没有授权，403表示没有权限访问这个页面，404代表没有这个页面
　　5**  服务器错误，服务器在处理请求的过程中发生了错误

scrapy知识积累的更多相关文章

WinRT知识积累1之读xml数据
前述:这个知识是在Windows8.1或WP8.1中运用Linq to xml获取一个xml文件里的数据.(网上也很多类似的知识,可以借鉴参考) 平台:windows8.1 metro 或者WP8.1 ...
Winform开发几个常用的开发经验及知识积累（一）
本人做Winform开发多年,孜孜不倦,略有小成,其中收集或者自己开发一些常用的东西,基本上在各个项目都能用到的一些开发经验及知识积累,现逐步介绍一些,以飨读者,共同进步. 1.窗口[×]关闭按钮变为 ...
Asp.net MVC知识积累
一.知识积累 http://yuangang.cnblogs.com/ 跟蓝狐学mvc教程专题目录:http://www.lanhusoft.com/Article/169.html 依赖注入:htt ...
【Python】零碎知识积累 II
[Python] 零碎知识积累 II ■ 函数的参数默认值在函数定义时确定并保存在内存中,调用函数时不会在内存中新开辟一块空间然后用参数默认值重新赋值,而是单纯地引用这个参数原来的地址.这就带来了一个 ...
数据库相关知识积累（sqlserver、oracle、mysql）
数据库相关知识积累(sqlserver.oracle.mysql) 1. sqlserver :断开所有连接: (还原数据库) 1.数据库分离 2. USE master GO ALTER DAT ...
34、Scrapy 知识总结
Scrapy 知识总结 1.安装 pip install wheel pip install https://download.lfd.uci.edu/pythonlibs/q5gtlas ...
【知识积累】SBT+Scala+MySQL的Demo
一.背景由于项目需要,需要在Sbt+Scala项目中连接MySQL数据库.由于之前使用Maven+Java进行依赖管理偏多,在Sbt+Scala方面也在不断进行摸索,特此记录,作为小模块知识的积累. ...
【Python】零碎知识积累 I
大概也是出于初高中时学化学,积累各种反应和物质的习惯,还有大学学各种外语时一看见不认识的词就马上记下来的习惯,形成了一种能记一点是一点的零碎知识记录的癖好.这篇文章就是专门拿来记录这些零碎知识的,没事 ...
4-5 Scrapy知识补充
FormRequest FormRequest类是专门用来处理HTML表单的,同时对隐藏的表单处理也很方便.适合用来完成登录操作. 类原型:class scrapy.http.FormRequest( ...

随机推荐

Django的rest_framework的视图之Mixin类编写视图源码解析
Mixin类编写视图我们这里用auther表来做演示,先为auther和autherdetail写2个url url(r'^autherdetail/(?P<id>\d+)', view ...
linux服务器搭建
centos7 java web项目环境搭配 2018年07月19日 17:20:21 阅读数:25 首先进行系统安装,此处不进行详细介绍,自行百度安装一.配置ip地址信息 1.进入/etc/sys ...
Wechat微信公众平台开发
一.微信概述 1.历史背景 1)2011年1月21日,腾讯推出微信应用程序.(张小龙) 2)2012年8月20日,腾讯推出微信公众平台功能,同年11月开放第三方接口 3)2013年11月注册用户量突破 ...
16-acrobat por 简单使用指南
用于pdf编辑,这里我主要讲下图片的切割和保存,以及合并: 切割选中区域双击合并的话,在编辑界面选中对象,复制,在另一个pdf的编辑界面粘贴,并挪动位置:
python 使用内置方法读取注册表
#coding:utf-8 import _winreg key = _winreg.OpenKey(_winreg.HKEY_CURRENT_USER,r"键值") #获取该键的 ...
微信小程序填坑之路
图片处理三个小方法仅供参考1.将图片转成base64编码,可以使用代码来转换,当然我才不愿意特意写代码转,我懒,献上一个在线图片转base64的地址:http://tool.css-js.com/b ...
springboot 项目添加jaeger调用链监控
1.添加maven依赖<dependency> <groupId>io.opentracing.contrib</groupId> <artifactId&g ...
PAT 1039 到底买不买（20）（20 分）
1039 到底买不买(20)(20 分) 小红想买些珠子做一串自己喜欢的珠串.卖珠子的摊主有很多串五颜六色的珠串,但是不肯把任何一串拆散了卖.于是小红要你帮忙判断一下,某串珠子里是否包含了全部自己想要 ...
FoxMail提示：请求的名称有效，但是找不到请求的类型的数据
FoxMail发送或者接收邮件的时候,提示如下信息: <错误信息:请求的名称有效,但是找不到请求的类型的数据> 一,DNS解析不稳定解决办法:修改本地电脑上面本地连接中的DNS地址< ...
sqli-labs：18-22，http头部注入
sqli18: uname和passwd被处理了: uagent和ip插入到了数据库: 还带回显. 抓包改包 sqli19: null sqli20: 审计代码,大概如下当我们正常登录后userna ...

scrapy知识积累

scrapy知识积累的更多相关文章

随机推荐

热门专题