首先需要确定要爬取的内容,所以第一步就应该是要确定要爬的字段:

  首先去items中确定要爬的内容

class MeizhuoItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# 图集的标题
title = scrapy.Field()
# 图片的url,需要来进行图片的抓取
url = scrapy.Field()
pass

在确定完要爬的字段之后,就是分析网站页面的请求了,找到自己需要的内容,我这里爬的是http://www.win4000.com里面的壁纸照片

   首先我们在分析的时候,点到一个图集里面可以发现,真正的照片都在这里面,所以我们分成两步走

    1、找到所有图集的url

    2、根据指定的图集的url来将里面所有照片的URL找出来

      但是找出照片的url之后又面临一个问题,那就是那个url并不是我们真正想要的,它在最后还加了一层修饰,所以我们还要对这个url进一步的操作

# -*- coding: utf-8 -*-
import scrapy
from scrapy.selector import Selector
from fake_useragent import UserAgent
from meizhuo.items import MeizhuoItem headers = {
'user-agent': UserAgent(verify_ssl=False).chrome
} class MzSpider(scrapy.Spider):
name = 'mz'
allowed_domains = ['www.win4000.com']
start_urls = [
'http://www.win4000.com/wallpaper_2285_0_0_1.html',
'http://www.win4000.com/wallpaper_204_0_0_1.html'
] def parse(self, response):
sel = Selector(response)
list = sel.xpath('//*[@class="list_cont Left_list_cont"]/div/div/div/ul/li/a') for img in list:
# 这个是每个图集得到的url
url = img.xpath('@href').extract_first()
title = img.xpath('@title').extract_first()
# 对我的每一个URL进行解析
yield scrapy.Request(url, callback=self.get_all_img, meta={'title': title})
# 对于下一页进行定位,如果存在就进行跳转
next_url = sel.xpath('//*[@class="next"]/@href').extract_first()
if next_url is not None:
yield scrapy.Request(next_url, callback=self.parse) def get_all_img(self, response):
item = MeizhuoItem() container = []
sel = Selector(response)
# 这个是所有照片的所有的总共的页数
img_list = sel.xpath('//*[@class="scroll-img-cont"]/ul')
for img in img_list:
img_url = img.xpath('li/a/img/@data-original').extract()
for url in img_url:
# 这个url还是需要经过处理的,所以要循环出来挨个进行修改
cmp_url = url.split('_')[0] + '.jpg'
container.append(cmp_url)
item['url'] = container
item['title'] = response.meta['title']
# print(container) yield item
container.clear()

当我们将图集中的所有照片的url找出来之后要做的,就是将图片下载到本地中,所以我们就在pipelines中配置了相关的下载路径的配置,然后利用抓取到的图片的url和rqeuests的模块的配合使用,来获取到图片真正的二进制的数据,然后将这些二进制数据,写入到你配置的指定的文件夹中,

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
import os
import requests
from meizhuo.settings import IMAGES_STORE
from fake_useragent import UserAgent headers = {
'user-agent': UserAgent(verify_ssl=False).chrome
} class MeizhuoPipeline(object):
def process_item(self, item, spider):
dir_path = IMAGES_STORE
title = item['title']
img_list = item['url']
print(title, img_list)
"""
1、我要创建指定的路径
2、然后我要利用requests模块获取到那一个url的二进制数据保存进去
"""
if not os.path.exists(IMAGES_STORE):
os.mkdir(IMAGES_STORE) # 如果这个顶头文件夹存在的话
collection_url = os.path.join(IMAGES_STORE, title)
print('', collection_url)
if not os.path.exists(collection_url):
os.mkdir(collection_url)
for url_list in range(len(img_list)):
cmp_url = os.path.join(collection_url, img_list[url_list]) # print(cmp_url)
file_path = os.path.join(collection_url, title) + str(url_list) + '.jpg'
print(file_path)
with open(file_path, 'wb') as fp:
res = requests.get(img_list[url_list], headers=headers).content
# print(img_list[url_list])
fp.write(res)
print('insert successfully!!!')

最后就是要讲一下,在settings中的相关配置:

BOT_NAME = 'meizhuo'

SPIDER_MODULES = ['meizhuo.spiders']
NEWSPIDER_MODULE = 'meizhuo.spiders'
ROBOTSTXT_OBEY = True
ITEM_PIPELINES = {
'meizhuo.pipelines.MeizhuoPipeline': 300,
}
# 下载的顶头路径
IMAGES_STORE = '/Users/mac/Documents/girl'
# 下载延迟
DOWNLOAD_DELAY = 0.3

  

scrapy框架来爬取壁纸网站并将图片下载到本地文件中的更多相关文章

  1. python爬取视频网站m3u8视频,下载.ts后缀文件,合并成整视频

    最近发现一些网站,可以解析各大视频网站的vip.仔细想了想,这也算是爬虫呀,爬的是视频数据. 首先选取一个视频网站,我选的是 影视大全 ,然后选择上映不久的电影 “一出好戏” . 分析页面 我用的是c ...

  2. Scrapy框架——CrawlSpider爬取某招聘信息网站

    CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页, 而Craw ...

  3. 爬虫Scrapy框架-2爬取网站视频详情

     爬取视频详情:http://www.id97.com/ 创建环境: movie.py 爬虫文件的设置: # -*- coding: utf-8 -*- import scrapy from movi ...

  4. scrapy入门实战-爬取代理网站

    入门scrapy. 学习了有这几点 1.如何使用scrapy框架对网站进行爬虫: 2.如何对网页源代码使用xpath进行解析: 3.如何书写spider爬虫文件,对源代码进行解析: 4.学会使用scr ...

  5. scrapy框架 + selenium 爬取豆瓣电影top250......

    废话不说,直接上代码..... 目录结构 items.py import scrapy class DoubanCrawlerItem(scrapy.Item): # 电影名称 movieName = ...

  6. Scrapy实战:使用scrapy再再次爬取干货集中营的妹子图片

    需要学习的知识: 1.获取到的json数据如何处理 2.保存到json文件 3.保存到MongoDB数据库 4.下载项目图片(含缩略图) 1.创建项目 scrapy startproject gank ...

  7. 爬取某网站景区列表并保存为csv文件

    网址:http://www.halehuo.com/jingqu.html 经过查看可以发现,该景区页面没有分页,不停的往下拉,页面会进行刷新显示后面的景区信息 通过使用浏览器调试器,发现该网站使用的 ...

  8. [原创]python爬虫之BeautifulSoup,爬取网页上所有图片标题并存储到本地文件

    from bs4 import BeautifulSoup import requests import re import os r = requests.get("https://re. ...

  9. 爬虫系列5:scrapy动态页面爬取的另一种思路

    前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考<scrapy动态页面爬取>).但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓 ...

随机推荐

  1. 基于STM32F429和Cube的ov2640程序

    1.ov2640和DCMI介绍 OV2640 是 OV(OmniVision)公司生产的一颗 1/4 寸的 CMOS UXGA(1632*1232)图 像传感器.该传感器体积小.工作电压低,提供单片 ...

  2. 2019牛客暑期多校训练营(第十场)J - Wood Processing (斜率优化DP)

    >传送门< 题意 $n$个宽度为$w_{i}$,高为$h_{i}$ 的 木块,要求分成$k$组,对于每组内的所有木块,高度都变为组内最低木块的高度,宽度保持不变,求变化的最小面积. 分析 ...

  3. idea使用springboot的webservice基于cxf

    SpringBoot整合CXF实例: 服务端构建 <dependency> <groupId>org.apache.cxf</groupId> <artifa ...

  4. Shell总结2

    1.---------->>sed命令用来取指定范围行. 2.--------------->>>>“$?“返回值的用法 (1)判断命令.脚本或函数等程序是否执行成 ...

  5. 《Java 8 in Action》Chapter 6:用流收集数据

    1. 收集器简介 collect() 接收一个类型为 Collector 的参数,这个参数决定了如何把流中的元素聚合到其它数据结构中.Collectors 类包含了大量常用收集器的工厂方法,toLis ...

  6. 矩阵微分与向量函数Taylor展开

    参考博客:https://blog.csdn.net/a_big_pig/article/details/78994033

  7. 《HelloGitHub》第 41 期

    兴趣是最好的老师,HelloGitHub 就是帮你找到兴趣! 简介 分享 GitHub 上有趣.入门级的开源项目. 这是一个面向编程新手.热爱编程.对开源社区感兴趣 人群的月刊,月刊的内容包括:各种编 ...

  8. Java基础之抽象类与接口

    Java基础之抽象类与接口 对于面向对象编程来说,抽象是它的一大特征之一.在Java中,可以通过两种形式来体现OOP的抽象:接口和抽象类.这两者有太多相似的地方,又有太多不同的地方.很多人在初学的时候 ...

  9. JS核心之DOM操作 上

    JS一个重要功能就是操作DOM, 改变页面显示. 目录: 1.基本概念 2.节点类型 3.节点关系 4.节点操作 基本概念 DOM全称为Document Object Model ,即文档对象模型,是 ...

  10. P1603 斯诺登的密码-字符串加法的妙用

    传送门:https://www.luogu.org/problemnew/show/P1603 题意: 首先在给定的字符串中,找出特定的单词,把它转化成特定的数字, 然后在这些数字中,找出排列结果最小 ...