pyspider使用

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2018-11-08 22:33:55

# Project: qsbk

from pyspider.libs.base_handler import *

from lxml import html

from urlparse import urljoin

import datetime

class Handler(BaseHandler):

    crawl_config = {

    }

    def __init__(self):

        self.start_url='https://www.qiushibaike.com/'

    @every(minutes=24 * 60)

    def on_start(self):

        self.crawl(self.start_url, callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)

    def index_page(self, response):

        root=html.fromstring(response.content.decode('utf-8'))

        content_left_node = root.xpath("//div[@id='content-left']")

        div_node_list = content_left_node[0].xpath("./div")

        tasks=[]

        for div_node in div_node_list:

            title_node = div_node.xpath(

                ".//div[@class='author clearfix']/a[contains(@onclick,'web-list-author-text')]/h2/text()")

            __content_url =div_node.xpath("./a[@class='contentHerf']/@href")

            content_url = urljoin(self.start_url, __content_url[0])

            content_node = div_node.xpath(".//div[@class='content']/span[1]")

            content = content_node[0].xpath('string(.)')

            name = title_node[0]

            info = ''.join(content)

            crawldate = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')

            item = {}

            item['name'] = name.strip() if name else name

            item['info'] = info.strip() if info else info

            item['crawldate'] = crawldate

            item['url'] = content_url

            tasks.append(item)

        return {'data':tasks}

pyspider使用的更多相关文章

用pyspider爬淘宝MM照片
#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2016-12-09 15:24:54 # Project: taobaomm ...
Python爬虫进阶二之PySpider框架安装配置
关于首先,在此附上项目的地址,以及官方文档 PySpider 官方文档安装 1. pip 首先确保你已经安装了pip,若没有安装,请参照 pip安装 2. phantomjs PhantomJS ...
pyspider爬豆瓣电影实例
直接copy官网实例会出现599的错误,百度了很久发现是因为证书的问题添加这一句忽略证书 validate_cert = False 代码如下: ++++++++++++++++++++++++++ ...
pyspider 简单应用之快速问医生药品抓取（一）
网址:http://yp.120ask.com/search/-0-0--0-0-0-0.html from pyspider.libs.base_handler import * class Han ...
Ubuntu下配置Pyspider环境
Ubuntu 14.04.4 LTS 1.ubuntu 系统自带Python 所以不用安装Python 注:安装前先更新下软件源命令 :sudo apt-get update 2.开始安装pip 命 ...
pyspider安装
官方文档上说的比较简单: pip install pyspider 但是实际安装时还是有些问题导致无法成功. windows下安装先安装PhantomJS 可以依照自己的开发平台选择不同的包进行下载 ...
安装pyspider
费了三个小时,换了很多版本的Python pip lxml,最终选择安装anaconda2 非常顺利运行pyspider后localhost:500正常显示开森
python3.4学习笔记(十三) 网络爬虫实例代码，使用pyspider抓取多牛投资吧里面的文章信息，抓取政府网新闻内容
python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI,采用Python语言编写 ...
【转】CentOS 6.5安装pyspider过程记录
原文地址:http://blog.sina.com.cn/s/blog_48c95a190102wczx.html 1.根据pyspider官方推荐的安装方法,使用pip命令直接安装pyspider ...
centos安装lxml和pyspider
yum -y install --nogpgcheck python34u-devel.x86_64 yum -y install libcurl-devel yum -y install libxs ...

随机推荐

centos6.5重新调整/home和跟目录/大小
0. 说明系统刚刚安装完之后,默认到/home有1.5TiB,而根分区只有200G.现在是要将VolGroup-lv_home缩小到200G,并将剩余的空间添加给VolGroup-lv_root. ...
windows & gcc & mingw & mysy 编译 openssl
今天有一个项目需要使用到 https, 以前一直用的都是http请求, 用 socket() 实现 https 请求我还真是头一回遇到. 先网上搜索了一下相关资料,明白了 https 相比较 http ...
dos初始操作和全屏方法
1.初始操作 mount d d:\ ;选择挂载的硬盘 d:\ cd Dos cd MASM ;到达debug/edit/link/masm.exe文件的位置 ;然后可以进行debug/edit xx ...
将make的输出重定向到文件（转）
原文:将make的输出重定向到文件 [用法] 1.想要把make输出的全部信息,输出到某个文件中,最常见的办法就是:make xxx > build_output.txt此时默认情况是没有改变2 ...
Docker：搭建RabbitMQ集群
RabbitMQ原理介绍(一) RabbitMQ安装使用(二) RabbitMQ添加新用户并支持远程访问(三) RabbitMQ管理命令rabbitmqctl详解(四) RabbitMQ两种集群模式配 ...
Java_myBatis_xml代理写法
这种开发方式只需要写好Mapper.xml和对应的Interface就可以了. 1.编写Mapper.xml <?xml version="1.0" encoding=&qu ...
HDFS集群PB级数据迁移方案-DistCp生产环境实操篇
HDFS集群PB级数据迁移方案-DistCp生产环境实操篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 用了接近2个星期的时间,终于把公司的需要的大数据组建部署完毕了,当然,在部 ...
Nginx负载均衡中后端节点服务器健康检查的一种简单方式
摘自:https://cloud.tencent.com/developer/article/1027287 一.利用nginx自带模块ngx_http_proxy_module和ngx_http_u ...
SuperArray
package com.lovo.array; public class SuperIntArray { //属性 public int[] array; private int index;//代表 ...
跨iOS SDK版本编译问题
iOS开发时会考虑两种SDK版本兼容性:一个是运行时SDK版本的兼容,即已构建/已发布的APP能在不同系统版本的用户手机上正常运行:一个是编译时SDK版本的兼容,即使用不同版本的SDK编译项目都能正常 ...

pyspider使用

pyspider使用的更多相关文章

随机推荐

热门专题