Python使用Scrapy爬虫框架全站爬取图片并保存本地(妹子图)

大家可以在Github上clone全部源码。

Github：https://github.com/williamzxl/Scrapy_CrawlMeiziTu

Scrapy官方文档：http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html

基本上按照文档的流程走一遍就基本会用了。

Step1：

在开始爬取之前，必须创建一个新的Scrapy项目。进入打算存储代码的目录中，运行下列命令:

scrapy startproject CrawlMeiziTu

该命令将会创建包含下列内容的 tutorial 目录:

CrawlMeiziTu/

    scrapy.cfg

    CrawlMeiziTu/

        __init__.py

        items.py

        pipelines.py

        settings.py
　　　　 middlewares.py

        spiders/

            __init__.py

            ...


cd CrawlMeiziTu

scrapy genspider Meizitu http://www.meizitu.com/a/list_1_1.html

该命令将会创建包含下列内容的 tutorial 目录:

CrawlMeiziTu/

    scrapy.cfg

    CrawlMeiziTu/
　　　　 __init__.py

        items.py

        pipelines.py

        settings.py
　　　　 middlewares.py

        spiders/
　　　　　　　Meizitu.py

            __init__.py

            ...

我们主要编辑的就如下图箭头所示：


main.py是后来加上的，加了两条命令，

 from scrapy import cmdline

 cmdline.execute("scrapy crawl Meizitu".split())

主要为了方便运行。

Step2：编辑Settings,如下图所示

 BOT_NAME = 'CrawlMeiziTu'

 SPIDER_MODULES = ['CrawlMeiziTu.spiders']

 NEWSPIDER_MODULE = 'CrawlMeiziTu.spiders'

 ITEM_PIPELINES = {

    'CrawlMeiziTu.pipelines.CrawlmeizituPipeline': 300,

 }

 IMAGES_STORE = 'D://pic2'

 DOWNLOAD_DELAY = 0.3

 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'

 ROBOTSTXT_OBEY = True

主要设置USER_AGENT,下载路径，下载延迟时间



Step3:编辑Items.
Items主要用来存取通过Spider程序抓取的信息。由于我们爬取妹子图，所以要抓取每张图片的名字，图片的连接，标签等等

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class CrawlmeizituItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    #title为文件夹名字

    title = scrapy.Field()

    url = scrapy.Field()

    tags = scrapy.Field()

    #图片的连接

    src = scrapy.Field()

    #alt为图片名字

    alt = scrapy.Field()



Step4:编辑Pipelines
Pipelines主要对items里面获取的信息进行处理。比如说根据title创建文件夹或者图片的名字，根据图片链接下载图片。

# -*- coding: utf-8 -*-

import os

import requests

from CrawlMeiziTu.settings import IMAGES_STORE

class CrawlmeizituPipeline(object):

    def process_item(self, item, spider):

        fold_name = "".join(item['title'])

        header = {

            'USER-Agent': 'User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',

            'Cookie': 'b963ef2d97e050aaf90fd5fab8e78633',

            #需要查看图片的cookie信息，否则下载的图片无法查看

        }

        images = []

        # 所有图片放在一个文件夹下

        dir_path = '{}'.format(IMAGES_STORE)

        if not os.path.exists(dir_path) and len(item['src']) != 0:

            os.mkdir(dir_path)

        if len(item['src']) == 0:

            with open('..//check.txt', 'a+') as fp:

                fp.write("".join(item['title']) + ":" + "".join(item['url']))

                fp.write("\n")

        for jpg_url, name, num in zip(item['src'], item['alt'],range(0,100)):

            file_name = name + str(num)

            file_path = '{}//{}'.format(dir_path, file_name)

            images.append(file_path)

            if os.path.exists(file_path) or os.path.exists(file_name):

                continue

            with open('{}//{}.jpg'.format(dir_path, file_name), 'wb') as f:

                req = requests.get(jpg_url, headers=header)

                f.write(req.content)

        return item



Step5:编辑Meizitu的主程序。
最重要的主程序：

# -*- coding: utf-8 -*-

import scrapy

from CrawlMeiziTu.items import CrawlmeizituItem

#from CrawlMeiziTu.items import CrawlmeizituItemPage

import time

class MeizituSpider(scrapy.Spider):

    name = "Meizitu"

    #allowed_domains = ["meizitu.com/"]

    start_urls = []

    last_url = []

    with open('..//url.txt', 'r') as fp:

        crawl_urls = fp.readlines()

        for start_url in crawl_urls:

            last_url.append(start_url.strip('\n'))

    start_urls.append("".join(last_url[-1]))

    def parse(self, response):

        selector = scrapy.Selector(response)

        #item = CrawlmeizituItemPage()

        next_pages = selector.xpath('//*[@id="wp_page_numbers"]/ul/li/a/@href').extract()

        next_pages_text = selector.xpath('//*[@id="wp_page_numbers"]/ul/li/a/text()').extract()

        all_urls = []

        if '下一页' in next_pages_text:

            next_url = "http://www.meizitu.com/a/{}".format(next_pages[-2])

            with open('..//url.txt', 'a+') as fp:

                fp.write('\n')

                fp.write(next_url)

                fp.write("\n")

            request = scrapy.http.Request(next_url, callback=self.parse)

            time.sleep(2)

            yield request

        all_info = selector.xpath('//h3[@class="tit"]/a')

        #读取每个图片夹的连接

        for info in all_info:

            links = info.xpath('//h3[@class="tit"]/a/@href').extract()

        for link in links:

            request = scrapy.http.Request(link, callback=self.parse_item)

            time.sleep(1)

            yield request

        # next_link = selector.xpath('//*[@id="wp_page_numbers"]/ul/li/a/@href').extract()

        # next_link_text = selector.xpath('//*[@id="wp_page_numbers"]/ul/li/a/text()').extract()

        # if '下一页' in next_link_text:

        #     nextPage = "http://www.meizitu.com/a/{}".format(next_link[-2])

        #     item['page_url'] = nextPage

        #     yield item

            #抓取每个文件夹的信息

    def parse_item(self, response):

         item = CrawlmeizituItem()

         selector = scrapy.Selector(response)

         image_title = selector.xpath('//h2/a/text()').extract()

         image_url = selector.xpath('//h2/a/@href').extract()

         image_tags = selector.xpath('//div[@class="metaRight"]/p/text()').extract()

         if selector.xpath('//*[@id="picture"]/p/img/@src').extract():

            image_src = selector.xpath('//*[@id="picture"]/p/img/@src').extract()

         else:

            image_src = selector.xpath('//*[@id="maincontent"]/div/p/img/@src').extract()

         if selector.xpath('//*[@id="picture"]/p/img/@alt').extract():

             pic_name = selector.xpath('//*[@id="picture"]/p/img/@alt').extract()

         else:

            pic_name = selector.xpath('//*[@id="maincontent"]/div/p/img/@alt').extract()

         #//*[@id="maincontent"]/div/p/img/@alt

         item['title'] = image_title

         item['url'] = image_url

         item['tags'] = image_tags

         item['src'] = image_src

         item['alt'] = pic_name

         print(item)

         time.sleep(1)

         yield item

Python使用Scrapy爬虫框架全站爬取图片并保存本地(妹子图)的更多相关文章

使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图）
初学Scrapy,实现爬取网络图片并保存本地功能一.先看最终效果保存在F:\pics文件夹下二.安装scrapy 1.python的安装就不说了,我用的python2.7,执行命令pip ins ...
windows下使用python的scrapy爬虫框架，爬取个人博客文章内容信息
scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息.关于python的安装和scrapy的安装配置请读者自行查阅相关资料,或者也可以关注我后续的内容. ...
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
python scrapy爬虫框架概念介绍(个人理解总结为一张图)
python的scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架 python和scrapy的安装就不介绍了,资料很多这里我个人总结一下,能更加快理解scrapy和快速上手一个简 ...
Scrapy爬虫框架之爬取校花网图片
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...
Python之Scrapy爬虫框架入门实例（一）
一.开发环境 1.安装 scrapy 2.安装 python2.7 3.安装编辑器 PyCharm 二.创建scrapy项目pachong 1.在命令行输入命令:scrapy startproject ...
scrapy爬虫系列之三--爬取图片保存到本地
功能点:如何爬取图片,并保存到本地爬取网站:斗鱼主播完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py im ...
【python】Scrapy爬虫框架入门
说明: 本文主要学习Scrapy框架入门,介绍如何使用Scrapy框架爬取页面信息. 项目案例:爬取腾讯招聘页面 https://hr.tencent.com/position.php?&st ...
Python多线程Threading爬取图片，保存本地，openpyxl批量插入图片到Excel表中
之前用过openpyxl库保存数据到Excel文件写入不了,换用xlsxwriter 批量插入图片到Excel表中 1 import os 2 import requests 3 import re ...

随机推荐

【C++小白成长撸】--N阶幻方（魔阵）矩阵
解决方法:1.第一个元素放在第一行中间一列 2.下一个元素存放在当前元素的上一行.下一列. 3.如果上一行.下一列已经有内容,则下一个元素的存放位置为当前列的下一行. 在找上一行.下一行或者下一列的时 ...
stable_sort()与sort
stable_sort与sort()都是c++库函数,调用<algorithm>库,但区别是sort是不稳定的排序,而stable_sort是稳定的,有时候stable_sort比sort ...
Java学习2——HelloWorld（编写第一个java程序）
编写在自己的工作文件目录下(如上一篇中配置的classpath路径)创建HelloWorld.java文件,编写如下代码,并保存 public class HelloWorld { public s ...
201521123038 《Java程序设计》第三周学习总结
201521123038 <Java程序设计> 第三周学习总结 1. 本周学习总结附大图链接 http://naotu.baidu.com/file/5774caa2be710afbc0 ...
《JAVA程序设计》第9周学习总结
1. 本章学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常相关内容. 2. 书面作业 1.常用异常题目5-1 1.1 截图你的提交结果(出现学号) 1.2 自己以前编写的代码中经常出现 ...
201521123056 《Java程序设计》第10周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常与多线程相关内容. 2. 书面作业本次PTA作业题集异常.多线程 1. finally 题目4-2 1.1 截图你的提交结果( ...
201521123060 《Java程序设计》第10周学习总结
1.本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常与多线程相关内容. 异常: 1.不要乱用异常: 2.异常发生时:确定异常类型,异常位置: 3.尽量使用已有的异常类. 多线程: 2 ...
201521123049 《JAVA程序设计》第9周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常相关内容. 2. 书面作业本次PTA作业题集异常 1.常用异常题目5-1 1.1 截图你的提交结果(出现学号) 1.2 自己 ...
day2_操作系统
一.为什么要有操作系统因为计算机系统主要是由一个或者多个处理器,主存,硬盘,键盘,鼠标,显示器,打印机,网络接口及其他输入输出设备组成.现代计算机系统复杂每位计算机程序员不可能全部的掌 ...
csv模块简单使用
json是一种嵌套了列表与字典的格式,json包可以读取返回的json格式,json.load(html返回的对象) csv模块,用来操作csv文件, import csv #from os impo ...

Python使用Scrapy爬虫框架全站爬取图片并保存本地(妹子图)

Python使用Scrapy爬虫框架全站爬取图片并保存本地(妹子图)的更多相关文章

随机推荐

热门专题