Scrapy框架-爬虫程序相关属性和方法汇总

一.爬虫项目类相关属性

name:爬虫任务的名称
allowed_domains:允许访问的网站
start_urls: 如果没有指定url，就从该列表中读取url来生成第一个请求
custom_settings:值为一个字典，定义一些配置信息，在运行爬虫程序时，这些配置会覆盖项目级别的配置

所以custom_settings必须被定义成一个类属性，由于settings会在类实例化前被加载
settings:通过self.settings['配置项的名字']可以访问settings.py中的配置，如果自己定义了custom_settings还是以自己的为准
logger:日志名默认为spider的名字
crawler:该属性必须被定义到类方法from_crawler中,crawler可以直接crawler.settings.get('setting文件中的名称')

二.爬虫项目类相关方法

from_crawler(crawler, *args, **kwargs):这个就是优先于__init__执行函数举例代码可以如下

#一般配置数据库的属性时候稍微用影响
#简单些下
@classmethod
def from_crawler(cls,crawler):
    HOST = crawler.settings.get('HOST') #这里面的属性都是在settings中设置的名称
    PORT = crawler.settings.get('PORT')
    USER = crawler.settings.get('USER')
    PWD = crawler.settings.get('PWD')
    DB = crawler.settings.get('DB')
    TABLE = crawler.settings.get('TABLE')
    return cls(HOST,PORT,USER,PWD,DB,TABLE)
def __init__(self,HOST,PORT,USER,PWD,DB,TABLE):
    self.HOST = HOST
    self.PORT = PORT
    self.USER = USER
    self.PWD = PWD
    self.DB = DB
    self.TABLE = TABLE
#看一眼就知道了吧

start_requests(self):该方法用来发起第一个Requests请求，且必须返回一个可迭代的对象。它在爬虫程序打开时就被Scrapy调用，Scrapy只调用它一次。

默认从start_urls里取出每个url来生成Request(url, dont_filter=True)

举例

如果不写start_requests方法:他会把start_urls的两个网址都发送过去

import scrapy
class BaiduSpider(scrapy.Spider):
    name = 'test'
    allowed_domains = ['http://httpbin.org/get']
    start_urls = ['http://httpbin.org/get','http://httpbin.org/get']
    def parse(self, response):
        print('接受一次')

如果写start_requests方法:他会把我们指定的Request对象发送出去,发送必须以迭代器的形式输出

parse(self,response):这是默认的回调函数
log(self, message, level=logging.DEBUG, **kw): 定义日志级别
close(self,reason):关闭爬虫程序执行

Scrapy框架-爬虫程序相关属性和方法汇总的更多相关文章

Scrapy框架-----爬虫
说明:文章是本人读了崔庆才的Python3---网络爬虫开发实战,做的简单整理,希望能帮助正在学习的小伙伴~~ 1. 准备工作: 安装Scrapy框架.MongoDB和PyMongo库,如果没有安装, ...
第三百三十二节，web爬虫讲解2—Scrapy框架爬虫—Scrapy使用
第三百三十二节,web爬虫讲解2—Scrapy框架爬虫—Scrapy使用 xpath表达式 //x 表示向下查找n层指定标签,如://div 表示查找所有div标签 /x 表示向下查找一层指定的标签 ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...
第三百三十三节，web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies
第三百三十三节,web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于star ...
第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令
第三百三十一节,web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令 Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --u ...
vue第六单元(vue的实例和组件-vue实例的相关属性和方法-解释vue的原理-创建vue的组件)
第六单元(vue的实例和组件-vue实例的相关属性和方法-解释vue的原理-创建vue的组件) #课程目标掌握vue实例的相关属性和方法的含义和使用了解vue的数据响应原理熟悉创建组件,了解全局 ...
第三百三十五节，web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码
第三百三十五节,web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码打码接口文件 # -*- coding: cp936 -*- import sys import os ...
PyQt（Python+Qt）学习随笔：QTreeWidget中标题相关属性访问方法headerItem、setHeaderLabels
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址树型部件窗口可以有一个标题头,其中包含部件中每个列的节(即标题).QTreeWidget的标题属性包 ...
Python 爬虫的代理 IP 设置方法汇总
本文转载自:Python 爬虫的代理 IP 设置方法汇总 https://www.makcyun.top/web_scraping_withpython15.html 需要学习的地方:如何在爬虫中使用 ...

随机推荐

sql语句字符串包含
select instr('1222','122') from dual//前者包含后者>0 oracle mysql 数据库可中 select charindex('1','12') from ...
ActiveMQ消息队列从入门到实践（4）—使用Spring JMS收发消息
Java消息服务(Java Message Service ,JMS)是一个Java标准,定义了使用消息代理的通用API .在JMS出现之前,每个消息代理都有私有的API,这就使得不同代理之间的消息代 ...
(2019版本可用)Pycharm的安装，破解
前言 python的操作工具pycharm,是专门用来写python语言的. 因为之前在网上找到了,但是太麻烦了,所以整理整理. pycharm安装官网可以选择下载(pycharm最新版有可能破解不 ...
IDEA中使用Maven模板创建Maven WebApp项目并使用Tomact来运行项目
首先需要正确安装Maven和Tomact,Maven安装和Tomact安装步骤,参见别的文章. 一.创建Maven工作空间点击Finish按钮后,耐心等待.直到出现BUILD SUCCESS为止. ...
Android 表格布局 TableLayout
属性介绍 stretchColumns:列被拉伸 shrinkColumns:列被收缩 collapseColumns:列被隐藏举例测试 <TableLayout android:id=&qu ...
Leetcode7 : Reverse Integer 整数反转问题
问题描述 Example1: x = 123, return 321 Example2: x = -123, return -321 原题链接: https://leetcode.com/proble ...
YII2中andWhere多个or查询
使用多个or的复杂查询: AND ((`name`='张三') OR (`name`='李四') OR (`name`='王五')) // AND ((`name`='张三') OR (`name`= ...
C#扩展方法学习笔记
C#扩展方法,简单的理解是不修改原来类的源代码的情况下,为某个类添加某个方法.扩展方法被定义为静态方法,但它们是通过实例方法语法进行调用的.它们的第一个参数指定该方法作用于哪个类型,并且该参数以 th ...
How to: Recompile the Business Class Library 如何：重新编译业务类库
The eXpressApp Framework supplies the Business Class Library that consists of three assemblies. eXpr ...
SQL实用技巧：如何判断一个值是否为数字的方法
检测是不是数字型的数据, 两种方法 1. ISNUMERIC ( expression ) 2. PATINDEX ( ‘%pattern%‘ , expression ) 1. ISNUMERIC ...

Scrapy框架-爬虫程序相关属性和方法汇总

一.爬虫项目类相关属性

二.爬虫项目类相关方法

Scrapy框架-爬虫程序相关属性和方法汇总的更多相关文章

随机推荐

热门专题