Python爬虫 —— 抓取美女图片（Scrapy篇）

杂谈：

之前用requests模块爬取了美女图片，今天用scrapy框架实现了一遍。

（图片尺度确实大了点，但老衲早已无恋红尘，权当观赏哈哈哈）

Item:

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class GirlpicItem(scrapy.Item):

    title = scrapy.Field()

    image = scrapy.Field()

    index = scrapy.Field()

Spider:

#coding:utf-8

from scrapy.spiders import Spider

from scrapy.http import Request

from scrapy.selector import Selector

from girlpic.items import GirlpicItem

import scrapy

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

class GirlpicSipder(Spider):

    name = 'girlpic'

    allowed_domains = []  # 允许的域名

    start_urls = ["http://www.mzitu.com/all/"]

    def parse(self, response):

        groups = response.xpath("//div[@class='main-content']//ul[@class='archives']//a")

        count = 0

        for group in groups:

            count = count + 1

            if count > 5:

                return   #此处小心，不要用os.exit(0)

            groupUrl = group.xpath('@href').extract()[0]

            title = group.xpath("text()").extract()[0]

            request = scrapy.Request(url=groupUrl, callback=self.getGroup, meta={'title': title,'groupUrl':groupUrl}, dont_filter=True)

            yield request

    def getGroup(self, response):

        maxIndex = response.xpath("//div[@class='pagenavi']//span/text()").extract()[-2]

        for index in range(1, int(maxIndex) + 1):

            pageUrl = response.meta['groupUrl']+'/'+str(index)

            meta = response.meta

            meta['index'] = index

            request = scrapy.Request(url=pageUrl, callback=self.getPage, meta=meta, dont_filter=True)

            yield request

    def getPage(self, response):

        imageurl = response.xpath("//div[@class='main-image']//img/@src").extract()[0]  # 获取图片url

        request = scrapy.Request(url=imageurl, callback=self.FormItem, meta=response.meta,dont_filter=True)

        yield request

    def FormItem(self, response):

        title = response.meta['title']

        index = response.meta['index']

        image = response.body

        item = GirlpicItem(title=title,index=index,image=image)

        yield item

PipeLine:

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import os

import codecs

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

class GirlpicPipeline(object):

    def __init__(self):

        self.dirpath = u'D:\学习资料'

        if not os.path.exists(self.dirpath):

            os.makedirs(self.dirpath)

    def process_item(self, item, spider):

        title = item['title']

        index = item['index']

        image = item['image']

        groupdir = os.path.join(self.dirpath, title)

        if not os.path.exists(groupdir):

            os.makedirs(groupdir)

        imagepath = os.path.join(groupdir, str(index) + u'.jpg')

        file = codecs.open(imagepath, 'wb')

        file.write(image)

        file.close()

        return item

Python爬虫 —— 抓取美女图片（Scrapy篇）的更多相关文章

Python爬虫 —— 抓取美女图片
代码如下: #coding:utf-8 # import datetime import requests import os import sys from lxml import etree im ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...
python爬虫抓取哈尔滨天气信息（静态爬虫）
python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...
python+requests抓取页面图片
前言: 学完requests库后,想到可以利用python+requests爬取页面图片,想到实战一下.依照现在所学只能爬取图片在html页面的而不能爬取由JavaScript生成的图片,所以我选取饿 ...

随机推荐

【前端阅读】——《JavaScript应用开发技术详解指南》摘记&思维导图
读这本书,我主要关注三个部分:JavaScript内置函数,程序调试以及Ajax基础.由于多是介绍基本概念,所以,采用思维导图的方式,做了一个梳理,以下就是精简的主要内容. 注:转载请注明出处
Oracle内存管理（之五）
[深入解析--eygle]学习笔记 1.4. 2其它内存组件 Large Pool-大池是SGA的一个可选组件,通经常使用于共享server模式(MTS). 并行计算或 RMAN的备份恢复等操作. J ...
cocos2d-x 3.0游戏实例学习笔记《跑酷》移植到android手机
说明:这里是借鉴:晓风残月前辈的博客.他是将泰然网的跑酷教程.用cocos2d-x 2.X 版本号重写的,眼下我正在学习cocos2d-X3.0 于是就用cocos2d-X 3.0重写,并做相关笔记 ...
struts2实现文件查看、下载
CreateTime--2017年9月7日10:25:33 Author:Marydon struts2实现文件查看.下载 1.界面展示 <a style="color: #199 ...
分享下多年积累的对JAVA程序员成长之路的总结
http://blog.csdn.net/zhongzelin/article/details/8643269我也搞了几年JAVA了,由于一向懒惰,没有成为大牛,只是一普通程序猿,不爱玩社交网站,不爱 ...
Struts2学习五----------指定多个配置文件
© 版权声明:本文为博主原创文章,转载请注明出处指定多个配置文件 - 在Struts2配置文件中使用include可指定多个配置文件实例 1.项目结构 2.pom.xml <project ...
(最短路径算法整理)dijkstra、floyd、bellman-ford、spfa算法模板的整理与介绍
这一篇博客以一些OJ上的题目为载体.整理一下最短路径算法.会陆续的更新... 一.多源最短路算法--floyd算法 floyd算法主要用于求随意两点间的最短路径.也成最短最短路径问题. 核心代码: / ...
refresh的停车场(栈和队列的STL)
refresh的停车场 Time Limit: 1000ms Memory limit: 65536K 有疑问?点这里^_^ 题目描写叙述 refresh近期发了一笔横財,开了一家停车场. 因 ...
Java系统中如何拆分同步和异步
很多开发人员说,将应用程序切换到异步处理很复杂.因为他们有一个天然需要同步通信的Web应用程序.在这篇文章中,我想介绍一种方法来达到异步通信的目的:使用一些众所周知的库和工具来设计他们的系统. 下面的 ...
Zabbix-20160817-高危SQL注入漏洞
漏洞概述: zabbix是一个开源的企业级性能监控解决方案.近日,zabbix的jsrpc的profileIdx2参数存在insert方式的SQL注入漏洞,攻击者无需授权登陆即可登陆zabbix管理系 ...

Python爬虫 —— 抓取美女图片（Scrapy篇）

Python爬虫 —— 抓取美女图片（Scrapy篇）的更多相关文章

随机推荐

热门专题