Scrapy爬取某装修网站部分装修效果图

爬取图片资源

spider文件

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

import re

import time

from ..items import ZhuangxiuItem

class ZhuangxiuspiderSpider(CrawlSpider):

    name = 'zhuangxiuSpider'

    allowed_domains = ['www.zhuangyi.com']

    start_urls = ['http://www.zhuangyi.com/xiaoguotu/keting/p1/']

    rules = (

        # 提取详情页信息 callback 回调函数, 将相应交给这个函数来处理

        # 第二步:分类主页的下一页

        # Rule(LinkExtractor(allow=r'(.*?)/p\d+'), follow=True),

        # 第三步: 详情页面

        Rule(LinkExtractor(allow=r'(.*?)\d+.html'), follow=True, callback='parse_item'),

    )

    def parse_item(self, response):

        img_url_list = re.findall(r'http://pic.zhuangyi.com/Member/\d/\d+/./\d+.jpg', response.text)

        item = ZhuangxiuItem()

        item['image_urls'] = img_url_list

        item['title'] = time.time()

        yield item

items.py 中

import scrapy

class ZhuangxiuItem(scrapy.Item):

    # define the fields for your item here like:

    title = scrapy.Field()

    image_urls = scrapy.Field()

settings

DEFAULT_REQUEST_HEADERS = {

  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

  'Accept-Language': 'en',

  'Referer': 'http://www.zhuangyi.com/'

}

IMAGES_STORE = 'img'

ITEM_PIPELINES = {

   'scrapy.pipelines.images.ImagesPipeline': 300,

}

Scrapy爬取某装修网站部分装修效果图的更多相关文章

scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
Python——Scrapy爬取链家网站所有房源信息
用scrapy爬取链家全国以上房源分类的信息: 路径: items.py # -*- coding: utf-8 -*- # Define here the models for your scrap ...
Python网络爬虫 | Scrapy爬取妹子图网站全站照片
根据现有的知识,写了一个下载妹子图(meizitu.com)Scrapy脚本,把全站两万多张照片下载到了本地. 网站的分析网页的网址分析打开网站,发现网页的网址都是以 http://www.mei ...
44.scrapy爬取链家网站二手房信息-2
全面采集二手房数据: 网站二手房总数据量为27650条,但有的参数字段会出现一些问题,因为只给返回100页数据,具体查看就需要去细分请求url参数去请求网站数据.我这里大概的获取了一下筛选条件参数,一 ...
43.scrapy爬取链家网站二手房信息-1
首先分析:目的:采集链家网站二手房数据1.先分析一下二手房主界面信息,显示情况如下: url = https://gz.lianjia.com/ershoufang/pg1/显示总数据量为27589套 ...
第5章 scrapy爬取知名问答网站
第五章感觉是第四章的练习项目,无非就是多了一个模拟登录. 不分小节记录了,直接上知识点,可能比较乱. 1.常见的httpcode: 2.怎么找post参数? 先找到登录的页面,打开firebug,输入 ...
Scrapy实战篇（七）之爬取爱基金网站基金业绩数据
本篇我们以scrapy+selelum的方式来爬取爱基金网站(http://fund.10jqka.com.cn/datacenter/jz/)的基金业绩数据. 思路:我们以http://fund.1 ...
Python开发爬虫之BeautifulSoup解析网页篇：爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
用scrapy爬取京东的数据
本文目的是使用scrapy爬取京东上所有的手机数据,并将数据保存到MongoDB中. 一.项目介绍主要目标 1.使用scrapy爬取京东上所有的手机数据 2.将爬取的数据存储到MongoDB 环境 ...

随机推荐

[Luogu]小Z的AK计划
Description Luogu2107 Solution 一开始打了一个60分的暴力DP,结果一分都没得--本地调了好久才发现是没开long long. 由于我的DP方程没有任何性质,就是一个01 ...
同步块:synchronized(同步监视器对象){同步运行代码片段}
package seday10; import seday03.Test2; /** * @author xingsir * 同步块:synchronized(同步监视器对象){需要同步运行的代码片段 ...
大数据的特征（4V+1O）
数据量大(Volume):第一个特征是数据量大,包括采集.存储和计算的量都非常大.大数据的起始计量单位至少是P(1000个T).E(100万个T)或Z(10亿个T). 类型繁多(Variety):第二 ...
解决Hbase启动后，hmaster会在几秒钟后自动关闭（停掉）！！！
在日志(身为小白白的我,一开始日志在哪我都不知道!路径:/usr/local/hadoop/app/hbase-0.98.8/logs/hbase-hadoop-master-Master.log(也 ...
vue使用axios访问后台接口
链接1:https://segmentfault.com/a/1190000012635783#item-2 // axios 使用post方式传递参数,后端接受不到,怎么解决链接2:http ...
Nuxt的默认模板和默认布局
Nuxt为我们提供了超简单的默认模版订制方法,只要在根目录下创建一个app.html就可以实现了注:建立了默认模板后,记得要重启服务器,否则你的显示不会成功默认布局主要针对于页面的统一布局使用.它 ...
题解【洛谷P2619】[国家集训队2]Tree I
题目描述给你一个无向带权连通图,每条边是黑色或白色.让你求一棵最小权的恰好有\(need\)条白色边的生成树. 题目保证有解. 输入输出格式输入格式第一行\(V,E,need\)分别表示点数,边 ...
502,csssprite是什么，有什么优缺点
(百科:csssprite是一种网页图片应用处理方式,国内常叫css精灵.它允许你将一个页面涉及到的所有零星图片都包含到一张大图中去,这样一来,当访问该页面时,载入的图片就不会像以前那样一幅一幅地慢慢 ...
Ansible - 模块 - shell
概述 ansible 的 shell 模块准别 ansible 控制节点 ansible 2.8.1 远程节点 OS CentOS 7.5 无密码登录已经打通 1. 模块概述 ansible 功 ...
【PAT甲级】1112 Stucked Keyboard (20分)（字符串）
题意: 输入一个正整数K(1<K<=100),接着输入一行字符串由小写字母,数字和下划线组成.如果一个字符它每次出现必定连续出现K个,它可能是坏键,找到坏键按照它们出现的顺序输出(相同坏键 ...

Scrapy爬取某装修网站部分装修效果图

Scrapy爬取某装修网站部分装修效果图的更多相关文章

随机推荐

热门专题