pyspider解析

https://www.cnblogs.com/microman/p/6111711.html

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2017-12-07 13:40:43

# Project: adquan

from pyspider.libs.base_handler import *

class Handler(BaseHandler):

    crawl_config = {

    }

    def __init__(self):

        self.deal = Deal()

    @every(minutes=24 * 60)

    def on_start(self):

        self.crawl('http://creative.adquan.com/show/42759', callback=self.detail_page)

    @config(age=10 * 24 * 60 * 60)

    def index_page(self, response):

        for each in response.doc('a[href^="http"]').items():

            self.crawl(each.attr.href, callback=self.detail_page)

    @config(priority=2)

    def detail_page(self, response):

        name = 'test'

        count = 0

        for img in response.doc('.con_Text img').items():

            url = img.attr.src

            if url:

                dir_path = self.deal.mkDir(name)

                extension = self.deal.getExtension(url)

                file_name = str(count) + '.' + extension

                count += 1

                self.crawl(img.attr.src, callback=self.save_img, save={'dir_path': dir_path, 'file_name':file_name})

        return {

            "url": response.url,

            "title": response.doc('title').text(),

        }

    def save_img(self, response):

        content = response.content

        dir_path = response.save['dir_path']

        file_name = response.save['file_name']

        file_path = dir_path + '/' + file_name

        self.deal.saveImg(content, file_path)

import os

DIR_PATH = "E:/pyspider/"

class Deal:

    def __init__(self):

        self.path = DIR_PATH

        if not self.path.endswith('/'):

            self.path = self.path + '/'

        if not os.path.exists(self.path):

            os.makedirs(self.path)

    def mkDir(self, path):

        path = path.strip()

        dir_path = self.path + path

        exists = os.path.exists(dir_path)

        if not exists:

            os.makedirs(dir_path)

            return dir_path

        else:

            return dir_path

    def saveImg(self, content, path):

        f = open(path, 'wb')

        f.write(content)

        f.close()

    def saveBrief(self, content, dir_path, name):

        file_name = dir_path + "/" + name + ".txt"

        f = open(file_name, "w+")

        f.write(content.encode('utf-8'))

    def getExtension(self, url):

        extension = url.split('.')[-1]

        return extension

　　http://demo.pyspider.org/

pyspider解析的更多相关文章

pyspider示例代码：解析JSON数据
pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一下比较经典的示例进行简单讲解,希望对新手有一些帮助. 示例说明: py ...
pyspider示例代码三：用PyQuery解析页面数据
本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉.pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一些 ...
pyspider示例代码二：解析JSON数据
本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉.pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一下 ...
pyspider用PyQuery解析页面数据
示例说明: 本示例主要是PyQuery解析返回的response页面数据.response.doc解析页面数据是pyspider的主要用法,应该熟练掌握基本使用方法.其他返回类型示例见后续文章. py ...
用pyspider爬取并解析json字符串
获取堆糖网站所有用户的id 昵称及主页地址 #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2016-06-21 13:57: ...
scrapy跟pyspider的杂谈
最近有一个私人项目要搞,可能最近的博客都会变成爬虫跟数据分析类的了.既然是爬虫,第一反应想到的就是鼎鼎大名的scrapy了,其次想到的pyspider,最后想到的就是自己写. scrapy是封装了tw ...
Python pyspider 安装与开发
PySpider 简介 PySpider是一个国人编写的强大的网络爬虫系统并带有强大的WebUI.采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器.任务监视器, ...
[转]Python爬虫框架--pyspider初体验
标签: python爬虫pyspider 2015-09-05 10:57 9752人阅读评论(0) 收藏举报分类: Python(8) 版权声明:本文为博主原创文章,未经博主允许不得转载. ...
Sina微博爬取@pyspider
这是一篇不应该写的文章,都写了,针对特定“方式”的爬虫也就没法爬了. 1.模拟登录的一些文章: 解析新浪微博的登录过程(2013-12-23): http://www.cnblogs.com/houk ...

随机推荐

ubuntu搭建 zabbix3.2 with mysql database （Ubuntu 14.04.5 LTS）
官网文档服务构建:https://www.zabbix.com/documentation/3.2/manual/installation/install_from_packages/server_ ...
横向、纵向时间轴timeline系列
近期移动端项目用到了很多时间轴.纵向的.开始可以实现,但是不利于维护.整理下, 以作为备份留存学习参考.子元素的标签的 :before实现圆点,:after实现边线border纵向时间轴,单一右边内 ...
[代码审计]青云客Cms前台有条件注入至getshell，后台xss至getshell、至弹你一脸计算器
之前写了一篇关于青云客cms的文章,发在了t00ls,就不copy过来了. 给个链接,好记录一下. https://www.t00ls.net/thread-43093-1-1.html
浅淡python中的with，上下文管理器
例子一首先来看一段代码: class Foo(object): def __init__(self): print('实例化一个对象') def __enter__(self): print('进入 ...
Windows和Linux下换行的不同
因为测试IM会用到一些账号,于是写了一段代码从数据库里把需要的用户名.密码和手机号都一一取了出来,然后放到NotePad++中做进一步的处理. 取用户名.手机号和密码的代码如下: public cla ...
基于 socket.io 的 AI 服务杂谈
为什么会想到来聊下这个话题. 前几天在公司的项目中,开发一个基于 socket.io 的直播 IM 功能. 直播分为两部分,一部分是比较昂贵的视频推流, 另外一部分是 IM 即时聊天服务. 从这里开 ...
【转】sublime text 3 显示空格和Tab
因为sublime text3确实太好用了所以也用它写代码了,可是在Python3第一步把preferences.sublime-setting-Default里面的"draw_white_ ...
用call和ret实现子程序
ret和call是另外两种转移指令,它们与jmp的主要区别是,它们还包含入栈和出栈的操作.具体的原理如下: ret操作相当于:pop ip(直接将栈顶元素赋值给ip寄存器) call s的操作相当于: ...
LevelDB的源码阅读（三） Put操作
在Linux上leveldb的安装和使用中我们写了这么一段测试代码,内容以及输出结果如下: #include <iostream> #include <string> #inc ...
WebAPI 实现前后端分离
随着Web技术的发展,现在各种框架,前端的,后端的,数不胜数.全栈工程师的压力越来越大. 现在的前端的框架,既可以做各种Web,又可以做各种APP,前端框架更新换代越来越快,越来越多. 传统的模式前 ...

pyspider解析

pyspider解析的更多相关文章

随机推荐

热门专题