最近在学习Scrapy的时候发现一个很有意思的网站,可以托管Spider,也可以设置定时抓取的任务,相当方便。于是研究了一下,把其中比较有意思的功能分享一下:
  • 抓取图片并显示在item里:

下面来正式进入本文的主题,抓取链家成交房产的信息并显示房子图片

1. 创建一个scrapy project:

scrapy startproject lianjia_shub

这时会在当前文件夹下创建如下文件夹:

│  scrapy.cfg

│

└─lianjia_shub

    │  items.py

    │  pipelines.py

    │  settings.py

    │  __init__.py

    │

    └─spiders

            __init__.py

2.  定义item:

import scrapy

class LianjiaShubItem(scrapy.Item):

    id = Field()

    title = Field()

    price = Field()

    addr = Field()

    link = Field()

    # 这里需要注意image这个字段

    # image字段用来存储抓取到的<img>,这样就可以在ScrapingHub的Item Browser里查看图片了

    # 而且这个名字必须是image,不然是不会显示图片的

    image = Field()

3. 创建spider:

cmd里运行以下命令:

scrapy genspider lianjia http://bj.lianjia.com/chengjiao

定义spider:

# -*- coding: utf-8 -*-

import scrapy

from scrapy.spiders.init import InitSpider

from lianjia_shub.items import LianjiaShubItem

class LianjiaSpider(InitSpider):

    name = "lianjia"

    allowed_domains = ["http://bj.lianjia.com/chengjiao/"]

    start_urls = []

    def init_request(self):

        return scrapy.Request('http://bj.lianjia.com/chengjiao/pg1/', callback=self.parse_detail_links)

    def parse_detail_links(self, response):

        house_lis = response.css('.clinch-list li')

        for house_li in house_lis:

            link = house_li.css('.info-panel h2 a::attr("href")').extract_first().encode('utf-8')

            self.start_urls.append(link)

        return self.initialized()

    def parse(self, response):

        house = LianjiaShubItem()

        house['link'] = response.url

        house['id'] = response.url.split('/')[-1].split('.')[0]

        image_url = response.css('.pic-panel img::attr(src)').extract_first()

        # image是一个list。在Scrapinghub中显示的时候会把image里所有的图片显示出来。

        house['image'] = [image_url, image_url]

        house['title'] = response.css('.title-box h1::text').extract_first()

        house['addr'] = response.css('.info-item01 a::text').extract_first()

        house['price'] = response.css('.love-money::text').extract_first()

        return house

4. 下面我们就需要到Scrapinghub(http://scrapinghub.com/platform/)上注册一个账户。

5. 安装Scrapinghub客户端命令Shub:

pip install shub

6.  在Scrapinghub上创建一个project,并找到对应的api key:

api key: 点击账户 -> Account Settings -> API Key

7. 使用api key和project id登录shub:

shub login

手动输入api key之后会创建一个scrapinghub的配置文件scrapinghub.yml:


projects:

  default: lianjia_shub

8. 把spider部署到Scrapinghub:

shub deploy <projectid>

Project ID可以在链接中找到: 
https://dash.scrapinghub.com/p/<projectid>/jobs/

9. 在Scrapinghub上运行spider:

Scrapinghub上的job对应于我们定义的spider:

https://dash.scrapinghub.com/p/<projectid>/spider/lianjia/
点击页面右上角的Run Spider:

在弹出的对话框中选择Spider的优先级后运行。(如果不想等太长时间的话可以设置成 Highest):

10.  执行结束后可以点击items查看抓取到的信息:


What's Next:

1. 根据需要更改spider的配置:

Spiders -> Settings -> Project Settings

2. 设置定时抓取:

Periodic Jobs -> Add periodic job

Scrapinghub执行spider抓取并显示图片的更多相关文章

  1. 使用wget工具抓取网页和图片 成功尝试

    使用wget工具抓取网页和图片 发表于1年前(2014-12-17 11:29)   阅读(2471) | 评论(14) 85人收藏此文章, 我要收藏 赞7 wget 网页抓取 图片抓取 目录[-] ...

  2. 使用wget工具抓取网页和图片 及 相关工具几个

    想保存一些网页,最后找到这 wget 的 shell脚本,虽然不是太理想,亲测可用呢. 使用wget工具抓取网页和图片   来源 https://my.oschina.net/freestyletim ...

  3. Nodejs全站开发学习系列 & 深入浅出Node学习笔记 & Spider抓取

    https://course.tianmaying.com/node 这个系列的文章看起来很不错,值得学习一下. /Users/baidu/Documents/Data/Interview/Web-S ...

  4. python学习-抓取知乎图片

    #!/bin/usr/env python3 __author__ = 'nxz' """ 抓取知乎图片webdriver Chromedriver驱动需要安装,并指定d ...

  5. PHP批量抓取远程网页图片并存到本地实现方法和源码

    做为一个仿站工作者,当遇到网站有版权时甚至加密的时候,WEBZIP也熄火,怎么扣取网页上的图片和背景图片呢.有时候,可能会想到用火狐,这款浏览器好像一个强大的BUG,文章有版权,屏蔽右键,火狐丝毫也不 ...

  6. 【Python爬虫程序】抓取MM131美女图片,并将这些图片下载到本地指定文件夹。

    一.项目名称 抓取MM131美女写真图片,并将这些图片下载到本地指定文件夹. 共有6种类型的美女图片: 性感美女 清纯美眉 美女校花 性感车模 旗袍美女 明星写真 抓取后的效果图如下,每个图集是一个独 ...

  7. 抓取Bing每日图片作为网站首页背景

    把Bing搜索的背景图片设置为自己网站的背景,实现背景及资讯的每日更新 效果图如下: 理一下思路,首先我们要抓取Bing的每日图片及最新资讯,然后保存图片及信息到本地,最后显示图片及资讯到网站首页. ...

  8. Python Spider 抓取猫眼电影TOP100

    """ 抓取猫眼电影TOP100 """ import re import time import requests from bs4 im ...

  9. Python Spider 抓取今日头条街拍美图

    """ 抓取今日头条街拍美图 """ import os import time import requests from hashlib ...

随机推荐

  1. 一个很简单的jQuery插件实例教程(菜鸟级)

    很多公司的前端设计开发人员都是女孩子,而这些女孩子很多JavaScript技能都不是很好.而前端开发过程中,JavaScript技能又是必不可少的.所以,如果前端小MM正在为某个JavaScript效 ...

  2. Effective Java2读书笔记-对于所有对象都通用的方法(二)

    第10条:始终要覆盖toString 这一条没什么好讲的,就是说默认的toString方法打印出来的是类名+@+十六进制哈希码的值.我们应该覆盖它,使它能够展示出一些更为详细清晰的信息,这个看实际情况 ...

  3. C++指针初始化总结

    1.字符指针的初始化 在c语言中 "string"保存的就是首个字符所在的地址  所以可以把 字符串常量"string" 赋值给指针 char *p;  &qu ...

  4. Palindrome Subarrays

    给定输入字符串,要求判断任意子字符串是否对称. 基本思路就是DP 写出DP表达式为 dp[i][j] = dp[i + 1][j - 1] && (s[i] == s[j]) dp[i ...

  5. bzoj4546-codechef XRQRS(可持久化Trie)

    中文题题意我就不说了 解析: 可持久化Trie的模板题,详见注释 代码 #include<cstdio> #include<cstring> #include<strin ...

  6. poj 2697 A Board Game(bfs+hash)

    Description Dao was a simple two-player board game designed by Jeff Pickering and Ben van Buskirk at ...

  7. 用WIFI为什么连不上VPN

    因为是做服务器的,经常需要通过VPN连接到公司的服务器处理一些事件. 但最近一次在寝室通过WIFI连接VPN时却报“错误 619:不能建立到远程计算机的连接,因用于此端口的连接已关闭”.我的第一反应是 ...

  8. UITableView 滚动时隐藏键盘

    #pragma mark - UItableView滚动时收键盘 - (void)scrollViewWillBeginDragging:(UITableView *)scrollView { [se ...

  9. xcode5下面安装Command Line Tools

    运行命令 sudo xcode-select --install 就会显示一行文字,并且弹出一个对话框,确认安装后他就会自己下载来安装了. 至此,Command Line Tools就能够重新复活了

  10. STS(Spring Tool Suite)建立默认的spring mvc项目

    引入响应的jar包解决报错: 由于国内的网络限制,下载会较慢.使用之前可自行更换maven的镜像路径,越近越好.