scrapy框架来爬取壁纸网站并将图片下载到本地文件中

首先需要确定要爬取的内容，所以第一步就应该是要确定要爬的字段：

　　首先去items中确定要爬的内容

class MeizhuoItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    # 图集的标题

    title = scrapy.Field()

    # 图片的url，需要来进行图片的抓取

    url = scrapy.Field()

    pass

在确定完要爬的字段之后，就是分析网站页面的请求了，找到自己需要的内容，我这里爬的是http://www.win4000.com里面的壁纸照片

　　　首先我们在分析的时候，点到一个图集里面可以发现，真正的照片都在这里面，所以我们分成两步走

　　　　1、找到所有图集的url

　　　　2、根据指定的图集的url来将里面所有照片的URL找出来

　　　　　　但是找出照片的url之后又面临一个问题，那就是那个url并不是我们真正想要的，它在最后还加了一层修饰，所以我们还要对这个url进一步的操作

# -*- coding: utf-8 -*-

import scrapy

from scrapy.selector import Selector

from fake_useragent import UserAgent

from meizhuo.items import MeizhuoItem

headers = {

    'user-agent': UserAgent(verify_ssl=False).chrome

}

class MzSpider(scrapy.Spider):

    name = 'mz'

    allowed_domains = ['www.win4000.com']

    start_urls = [

        'http://www.win4000.com/wallpaper_2285_0_0_1.html',

        'http://www.win4000.com/wallpaper_204_0_0_1.html'

    ]

    def parse(self, response):

        sel = Selector(response)

        list = sel.xpath('//*[@class="list_cont Left_list_cont"]/div/div/div/ul/li/a')

        for img in list:

            # 这个是每个图集得到的url

            url = img.xpath('@href').extract_first()

            title = img.xpath('@title').extract_first()

            # 对我的每一个URL进行解析

            yield scrapy.Request(url, callback=self.get_all_img, meta={'title': title})

        # 对于下一页进行定位，如果存在就进行跳转

        next_url = sel.xpath('//*[@class="next"]/@href').extract_first()

        if next_url is not None:

            yield scrapy.Request(next_url, callback=self.parse)

    def get_all_img(self, response):

        item = MeizhuoItem()

        container = []

        sel = Selector(response)

        # 这个是所有照片的所有的总共的页数

        img_list = sel.xpath('//*[@class="scroll-img-cont"]/ul')

        for img in img_list:

            img_url = img.xpath('li/a/img/@data-original').extract()

            for url in img_url:

                # 这个url还是需要经过处理的，所以要循环出来挨个进行修改

                cmp_url = url.split('_')[0] + '.jpg'

                container.append(cmp_url)

            item['url'] = container

            item['title'] = response.meta['title']

            # print(container)

            yield item

            container.clear()

当我们将图集中的所有照片的url找出来之后要做的，就是将图片下载到本地中，所以我们就在pipelines中配置了相关的下载路径的配置，然后利用抓取到的图片的url和rqeuests的模块的配合使用，来获取到图片真正的二进制的数据，然后将这些二进制数据，写入到你配置的指定的文件夹中，

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

import os

import requests

from meizhuo.settings import IMAGES_STORE

from fake_useragent import UserAgent

headers = {

    'user-agent': UserAgent(verify_ssl=False).chrome

}

class MeizhuoPipeline(object):

    def process_item(self, item, spider):

        dir_path = IMAGES_STORE

        title = item['title']

        img_list = item['url']

        print(title, img_list)

        """

        1、我要创建指定的路径

        2、然后我要利用requests模块获取到那一个url的二进制数据保存进去

        """

        if not os.path.exists(IMAGES_STORE):

            os.mkdir(IMAGES_STORE)

        # 如果这个顶头文件夹存在的话

        collection_url = os.path.join(IMAGES_STORE, title)

        print('', collection_url)

        if not os.path.exists(collection_url):

            os.mkdir(collection_url)

        for url_list in range(len(img_list)):

            cmp_url = os.path.join(collection_url, img_list[url_list])

            # print(cmp_url)

            file_path = os.path.join(collection_url, title) + str(url_list) + '.jpg'

            print(file_path)

            with open(file_path, 'wb') as fp:

                res = requests.get(img_list[url_list], headers=headers).content

                # print(img_list[url_list])

                fp.write(res)

                print('insert successfully!!!')

最后就是要讲一下，在settings中的相关配置：

BOT_NAME = 'meizhuo'

SPIDER_MODULES = ['meizhuo.spiders']

NEWSPIDER_MODULE = 'meizhuo.spiders'

ROBOTSTXT_OBEY = True

ITEM_PIPELINES = {

   'meizhuo.pipelines.MeizhuoPipeline': 300,

}

# 下载的顶头路径

IMAGES_STORE = '/Users/mac/Documents/girl'

# 下载延迟

DOWNLOAD_DELAY = 0.3

scrapy框架来爬取壁纸网站并将图片下载到本地文件中的更多相关文章

python爬取视频网站m3u8视频，下载.ts后缀文件，合并成整视频
最近发现一些网站,可以解析各大视频网站的vip.仔细想了想,这也算是爬虫呀,爬的是视频数据. 首先选取一个视频网站,我选的是影视大全 ,然后选择上映不久的电影 “一出好戏” . 分析页面我用的是c ...
Scrapy框架——CrawlSpider爬取某招聘信息网站
CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页, 而Craw ...
爬虫Scrapy框架-2爬取网站视频详情
爬取视频详情:http://www.id97.com/ 创建环境: movie.py 爬虫文件的设置: # -*- coding: utf-8 -*- import scrapy from movi ...
scrapy入门实战-爬取代理网站
入门scrapy. 学习了有这几点 1.如何使用scrapy框架对网站进行爬虫: 2.如何对网页源代码使用xpath进行解析: 3.如何书写spider爬虫文件,对源代码进行解析: 4.学会使用scr ...
scrapy框架 + selenium 爬取豆瓣电影top250......
废话不说,直接上代码..... 目录结构 items.py import scrapy class DoubanCrawlerItem(scrapy.Item): # 电影名称 movieName = ...
Scrapy实战：使用scrapy再再次爬取干货集中营的妹子图片
需要学习的知识: 1.获取到的json数据如何处理 2.保存到json文件 3.保存到MongoDB数据库 4.下载项目图片(含缩略图) 1.创建项目 scrapy startproject gank ...
爬取某网站景区列表并保存为csv文件
网址:http://www.halehuo.com/jingqu.html 经过查看可以发现,该景区页面没有分页,不停的往下拉,页面会进行刷新显示后面的景区信息通过使用浏览器调试器,发现该网站使用的 ...
[原创]python爬虫之BeautifulSoup,爬取网页上所有图片标题并存储到本地文件
from bs4 import BeautifulSoup import requests import re import os r = requests.get("https://re. ...
爬虫系列5：scrapy动态页面爬取的另一种思路
前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考<scrapy动态页面爬取>).但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓 ...

随机推荐

Spring源码剖析6：Spring AOP概述
原文出处: 五月的仓颉我们为什么要使用 AOP 前言一年半前写了一篇文章Spring3:AOP,是当时学习如何使用Spring AOP的时候写的,比较基础.这篇文章最后的推荐以及回复认为我写的对大 ...
.NET Core 单元测试
应用程序测试的类型很多,包括集成测试,Web 测试,负载测试等.在最底层的是单元测试,此测试可以测试单个软件组件或方法.单元测试一般只测试开发人员的代码,不应该测试基础结构普.问题,如数据库,文件系统 ...
Jmeter 02 Jmeter断言之响应断言
看完上一篇博客,相信大家应该可以使用Jmeter发送HTTP请求了.那么我们既然是要测试,就肯定需要判断结果了.Jmeter对于请求的响应数据提供了几种断言机制,这里大概说一下比较常用的几种断言. 响 ...
车联网服务non-RESTful架构改造实践
导读在构建面向企业项目.多端的内容聚合类在线服务API设计的过程中,由于其定制特点,采用常规的restful开发模式,通常会导致大量雷同API重复开发的窘境,本文介绍一种GraphQL查询语言+网关 ...
vue实现输入框的模糊查询（节流函数的应用场景）
上一篇讲到了javascript的节流函数和防抖函数,那么我们在实际场合中该如何运用呢? 首先,我们来理解一下:节流函数首先是节流,就是节约流量.内存的损耗,旨在提升性能,在高频率频发的事件中才会用到 ...
[Python] 通过采集两万条数据，对《无名之辈》影评分析
一.说明本文主要讲述采集猫眼电影用户评论进行分析,相关爬虫采集程序可以爬取多个电影评论. 运行环境:Win10/Python3.5. 分析工具:jieba.wordcloud.pyecharts.m ...
python多进程通信实例分析
操作系统会为每一个创建的进程分配一个独立的地址空间,不同进程的地址空间是完全隔离的,因此如果不加其他的措施,他们完全感觉不到彼此的存在.那么进程之间怎么进行通信?他们之间的关联是怎样的?实现原理是什么 ...
分布式任务调度框架 Azkaban —— Flow 1.0 的使用
一.简介 Azkaban 主要通过界面上传配置文件来进行任务的调度.它有两个重要的概念: Job: 你需要执行的调度任务: Flow:一个获取多个 Job 及它们之间的依赖关系所组成的图表叫做 Flo ...
Linux之Shell编程(14)
变量: 定义变量的规则: 1)变量名可以由字母.数字和下划线组成,但不能以数字开头 2)等号两侧不能有空格 3)变量名一般习惯大写将命令的返回值赋值给变量: 1)使用``将命令括起来 2)使用$() ...
《阿里巴巴Java开发手册1.4.0》阅读总结与心得（四）
(七)设计规约 1. [强制] 存储方案和底层数据结构的设计获得评审一致通过,并沉淀成为文档. 说明: 有缺陷的底层数据结构容易导致系统风险上升,可扩展性下降,重构成本也会因历史数据迁移和系统平滑过渡 ...

scrapy框架来爬取壁纸网站并将图片下载到本地文件中

scrapy框架来爬取壁纸网站并将图片下载到本地文件中的更多相关文章

随机推荐

热门专题