pyspider_初始

一、简介

1.1、简介

pyspider 是一个使用python编写，并且拥有强大功能web界面的爬虫框架。

强大的web界面可进行脚本编辑，任务监控，项目管理，结果查看等功能。
pyspider支持多种数据库进行数据存储。MySQL, MongoDB, Redis, SQLite, Elasticsearch...（保存数据，默认使用sqlit3）
并且支持多种消息队列。RabbitMQ, Beanstalk, Redis...（用于调度器进行各个组件的协调工作，数据传递等。）
通过装饰器,配置任务优先级，爬虫什么时侯再重新爬取，任务失败再从新自动抓取...
可使用phantomjs，只需要添加参数，就可对动态页面进行爬取..
支持python2，python3.

1.2、框架结构

通过上面的图，我们可以看出pyspider由四部分组成

Scheduler：任务管理，多个模块之间的协调管理控制。
Fetcher：发送请求，获取响应，这里还可以调用phantomjs。
Processor：对返回的数据进行提取，保存等。
webui/monitor：可视化的方式实现脚本编写，任务管理，监控，调度，结果展示。

1.3、pyspider工作流程：

def on_start(self):

    self.crawl('https://travel.qunar.com/?from=header', callback=self.index_page)

当我们启动一个pyspider项目时，默认会调用如上方法。该方法会将第一个任务加入newtask_queue（默认使用python多进程中的队列。调度器（Scheduler）会从任务队列（newtask_queue）中拿出任务交给抓取器（Fetcher），进行页面请求。将数据发送给处理器（Processor）进行数据提取，如果有继续需要请求的url，请再次调用self.crawl方法，则该任务会被加入任务队列，等待调度器进行调度

二、安装

pip install pyspider

pip uninstall wsgidav #直接安装pyspider 默认这个库版本为3.+,会报错，要使用 2.+版本。

pip install wsgidav==2.4.1

2.1、启动命令:

pyspider #在哪里启动pyspider，数据文件就会位于哪里，可以通过配置文件进行修改。

2.2、访问界面

http://127.0.0.1:5000/

2.3、仪表盘各项功能简介

访问上面的url，我们可以进入到pyspider的管理界面

2.4、重要

项目状态有如下分类
- TODO 一个项目被创建，等待编写脚本执行
- STOP 停止一个运行的项目
- CHECKING，如果我们需要对一个运行中的项目，进行修改，则应设置为该状态。
- DEBUG/RUNNING ，我们想执行一个项目，则需要将状态设置为这两个状态其中之一。然后再点击右方的run按钮。
当组名设置为delete，项目状态为STOP时，24小时爬虫项目会被删除。
我们可以点击右方的Results查看抓取数据结果，抓取的数据默认保存在pyspider启动目录下/data/‪result.db
rate 代表每一秒发送的请求数，默认1，代表每一秒发送一个请求，数值越大，速度越快。
burst 当所有任务被执行完成后，处理数据时又出现新的任务时，此时会默认同时执行3个，但是第四个请求需要等待1秒，也就是rate的值。

三、糗事百科推荐笑话爬取

1、创建项目

2、常用工具

3、代码

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2020-04-09 17:40:39

# Project: qiushibaike

from pyspider.libs.base_handler import *

headers={

        'user_agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36',

        }

class Handler(BaseHandler):

    crawl_config = {

        'validate_cert':False,

        'headers':headers

    }

    @every(minutes=24 * 60)

    def on_start(self):

        self.crawl('https://www.qiushibaike.com/', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)

    def index_page(self, response):

        for each in response.doc('a.recmd-content').items():

            self.crawl(each.attr.href, callback=self.detail_page)

        flag=response.etree.xpath('//span[contains(text(),"下一页")]')

        print(flag)

        if flag:

            next_url=response.doc('.pagination>li:last-child>a').attr("href")

            print(next_url)

            self.crawl(next_url, callback=self.index_page)

    @config(priority=2)

    def detail_page(self, response):

        item={

            "url": response.url,

            "title": response.doc('h1.article-title').text(),

            "content":response.etree.xpath('string(//div[@class="content"])'),

            "video_source":response.doc('#article-video >source').attr("src"),

            "img_urls":response.etree.xpath('//div[@class="thumb"]//img/@src')

        }

        return item

4、执行

5、等待一会，就可以查看到数据,可直接下载json，或者csv格式的数据。

pyspider_初始的更多相关文章

2DToolkit官方文档中文版打地鼠教程（一）：初始设置
这是2DToolkit官方文档中 Whack a Mole 打地鼠教程的译文,为了减少文中过多重复操作的翻译,以及一些无必要的句子,这里我假设你有Unity的基础知识(例如了解如何新建Sprite等) ...
CSharpGL(38)带初始数据创建Vertex Buffer Object的情形汇总
CSharpGL(38)带初始数据创建Vertex Buffer Object的情形汇总开始总的来说,OpenGL应用开发者会遇到为如下三种数据创建Vertex Buffer Object的情形: ...
ArrayList、Vector、HashMap、HashSet的默认初始容量、加载因子、扩容增量
当底层实现涉及到扩容时,容器或重新分配一段更大的连续内存(如果是离散分配则不需要重新分配,离散分配都是插入新元素时动态分配内存),要将容器原来的数据全部复制到新的内存上,这无疑使效率大大降低. 加载因 ...
linux系统下使用xampp 丢失mysql root密码【xampp的初始密码为空】
如果在ubuntu 下面使用xampp这个集成开发环境,却忘记mysql密码. 注:刚安装好的xampp的Mysql初始密码是空... 找回密码的步骤如下: 1.停止mysql服务器 sudo /o ...
python基础之初始python
初始python之基础一一.Python 介绍 1.python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发 ...
openfire 初始密码
openfire 初始密码 mssql2014 进入数据库,找到 ofUser 表 ,将密码字段对应的密文替换为下面的内容,则密码就是 admin ecbd03623cd819c48718db1b27 ...
Bash 什么时候会给 HOME 赋初始值
今天无意发现下面这个表现: $ env -i bash -c cd bash: line 0: cd: HOME not set $ env -i bash -c 'echo $HOME' 这表明了 ...
Holt-Winters原理和初始值的确定
关于模型 (来自以下PPT,从第4页开始) 关于初始值: 以下文档给出了三个模型的初始值计算的思路. 大致思路如下,建立一个p阶移动平均模型,估计出参数即为初始值,具体的根据三种不同的模型,有 ...
关于int,integer初始值问题

随机推荐

vue项目使用Vant框架Rem适配（postcss-pxtorem、lib-flexible ）的安装使用
1.下载lib-flexible 使用的是vue-cli+webpack,通过npm来安装的 npm i lib-flexible --save 2.引入lib-flexible 在main.js中引 ...
iframe 父框架调用子框架的函数
1.父框架定义: <iframe name="mainframe" id="mainframe" width="100%" scrol ...
Java POI 实现Excel相同数据同一颜色，不同数据颜色交替显示
目录 1.效果图 2.具体代码实现 excel 读取工具类 excel写入和测试类 1.效果图 2.具体代码实现 excel 读取工具类 package utils; import java.io.F ...
Python——项目-小游戏2-动画绘制
实现游戏循环还有事件的监听在上一讲中你需要完成这样的这样的效果, 如果你还没有完成,请不要继续往下阅读!!切记切记切记.,重要的事情说三遍我们来看一下什么是游戏循环所谓的游戏循环很好的理解就 ...
JavaScript 模式》读书笔记（3）— 字面量和构造函数2
上一篇啊,我们聊了聊字面量对象和自定义构造函数.这一篇,我们继续,来聊聊new和数组字面量. 三.强制使用new的模式要知道,构造函数,只是一个普通的函数,只不过它却是以new的方式调用.如果在调用 ...
Swift 4.0 高级-自定义操作符
在Swift语言中,常见的操作符有+.-.*./.>.<.==.&&.||等等,如果不喜欢,你也可以定义自己喜欢的操作符. 操作符类型中置运算符(infix operat ...
C语言之歌词解析
0x00 脚下的路不知道为啥要写这个小标题,可能是年轻的心想体验一下苍老的感觉,抑或是少年的一阵迷茫.混沌的四年,终究还是入了这一行.从初时的不知,到现在的刚开始,中间的间隔竟是四年之久,想起了陈奕 ...
微信小程序分享转发用法大全——自定义分享、全局分享、组合分享
官方提供的自定义分享使用隐式页面配置函数实现的全局分享-推荐使用隐式路由实现的全局分享-不推荐,仅供了解隐式路由前言: 目前微信小程序只开放了页面自定义分享的API,为了能够更灵活的进行分享配置 ...
uni-app实现文件上传(h5方式)
1.嵌入H5页面,需要采用web-view标签,如下: <web-view src="/hybrid/html/index.html" @message="hand ...
Mock测试，结合Fiddler轻松搞定不同场景
在平时测试过程中,总会遇到一些比较难构造的场景.比如不同平台间的同步,异常场景的构造.遇到难构造的场景时,就可以引用Mock来进行单元测试.简言之:mock测试就是在测试过程中,对于某些不容易构造或者 ...