Scrapinghub执行spider抓取并显示图片
序
- 抓取图片并显示在item里:

下面来正式进入本文的主题,抓取链家成交房产的信息并显示房子图片:
1. 创建一个scrapy project:
scrapy startproject lianjia_shub
这时会在当前文件夹下创建如下文件夹:
│ scrapy.cfg │ └─lianjia_shub │ items.py │ pipelines.py │ settings.py │ __init__.py │ └─spiders __init__.py
2. 定义item:
import scrapy class LianjiaShubItem(scrapy.Item): id = Field() title = Field() price = Field() addr = Field() link = Field() # 这里需要注意image这个字段 # image字段用来存储抓取到的<img>,这样就可以在ScrapingHub的Item Browser里查看图片了 # 而且这个名字必须是image,不然是不会显示图片的 image = Field()
3. 创建spider:
cmd里运行以下命令:
scrapy genspider lianjia http://bj.lianjia.com/chengjiao
定义spider:
# -*- coding: utf-8 -*-
import scrapy
from scrapy.spiders.init import InitSpider
from lianjia_shub.items import LianjiaShubItem
class LianjiaSpider(InitSpider):
name = "lianjia"
allowed_domains = ["http://bj.lianjia.com/chengjiao/"]
start_urls = []
def init_request(self):
return scrapy.Request('http://bj.lianjia.com/chengjiao/pg1/', callback=self.parse_detail_links)
def parse_detail_links(self, response):
house_lis = response.css('.clinch-list li')
for house_li in house_lis:
link = house_li.css('.info-panel h2 a::attr("href")').extract_first().encode('utf-8')
self.start_urls.append(link)
return self.initialized()
def parse(self, response):
house = LianjiaShubItem()
house['link'] = response.url
house['id'] = response.url.split('/')[-1].split('.')[0]
image_url = response.css('.pic-panel img::attr(src)').extract_first()
# image是一个list。在Scrapinghub中显示的时候会把image里所有的图片显示出来。
house['image'] = [image_url, image_url]
house['title'] = response.css('.title-box h1::text').extract_first()
house['addr'] = response.css('.info-item01 a::text').extract_first()
house['price'] = response.css('.love-money::text').extract_first()
return house
4. 下面我们就需要到Scrapinghub(http://scrapinghub.com/platform/)上注册一个账户。
5. 安装Scrapinghub客户端命令Shub:
pip install shub
6. 在Scrapinghub上创建一个project,并找到对应的api key:
api key: 点击账户 -> Account Settings -> API Key
7. 使用api key和project id登录shub:
shub login
手动输入api key之后会创建一个scrapinghub的配置文件scrapinghub.yml:
projects: default: lianjia_shub
8. 把spider部署到Scrapinghub:
shub deploy <projectid>
9. 在Scrapinghub上运行spider:
Scrapinghub上的job对应于我们定义的spider:
https://dash.scrapinghub.com/p/<projectid>/spider/lianjia/
在弹出的对话框中选择Spider的优先级后运行。(如果不想等太长时间的话可以设置成 Highest):

10. 执行结束后可以点击items查看抓取到的信息:

What's Next:
1. 根据需要更改spider的配置:
Spiders -> Settings -> Project Settings
2. 设置定时抓取:
Periodic Jobs -> Add periodic job
Scrapinghub执行spider抓取并显示图片的更多相关文章
- 使用wget工具抓取网页和图片 成功尝试
使用wget工具抓取网页和图片 发表于1年前(2014-12-17 11:29) 阅读(2471) | 评论(14) 85人收藏此文章, 我要收藏 赞7 wget 网页抓取 图片抓取 目录[-] ...
- 使用wget工具抓取网页和图片 及 相关工具几个
想保存一些网页,最后找到这 wget 的 shell脚本,虽然不是太理想,亲测可用呢. 使用wget工具抓取网页和图片 来源 https://my.oschina.net/freestyletim ...
- Nodejs全站开发学习系列 & 深入浅出Node学习笔记 & Spider抓取
https://course.tianmaying.com/node 这个系列的文章看起来很不错,值得学习一下. /Users/baidu/Documents/Data/Interview/Web-S ...
- python学习-抓取知乎图片
#!/bin/usr/env python3 __author__ = 'nxz' """ 抓取知乎图片webdriver Chromedriver驱动需要安装,并指定d ...
- PHP批量抓取远程网页图片并存到本地实现方法和源码
做为一个仿站工作者,当遇到网站有版权时甚至加密的时候,WEBZIP也熄火,怎么扣取网页上的图片和背景图片呢.有时候,可能会想到用火狐,这款浏览器好像一个强大的BUG,文章有版权,屏蔽右键,火狐丝毫也不 ...
- 【Python爬虫程序】抓取MM131美女图片,并将这些图片下载到本地指定文件夹。
一.项目名称 抓取MM131美女写真图片,并将这些图片下载到本地指定文件夹. 共有6种类型的美女图片: 性感美女 清纯美眉 美女校花 性感车模 旗袍美女 明星写真 抓取后的效果图如下,每个图集是一个独 ...
- 抓取Bing每日图片作为网站首页背景
把Bing搜索的背景图片设置为自己网站的背景,实现背景及资讯的每日更新 效果图如下: 理一下思路,首先我们要抓取Bing的每日图片及最新资讯,然后保存图片及信息到本地,最后显示图片及资讯到网站首页. ...
- Python Spider 抓取猫眼电影TOP100
""" 抓取猫眼电影TOP100 """ import re import time import requests from bs4 im ...
- Python Spider 抓取今日头条街拍美图
""" 抓取今日头条街拍美图 """ import os import time import requests from hashlib ...
随机推荐
- 一个很简单的jQuery插件实例教程(菜鸟级)
很多公司的前端设计开发人员都是女孩子,而这些女孩子很多JavaScript技能都不是很好.而前端开发过程中,JavaScript技能又是必不可少的.所以,如果前端小MM正在为某个JavaScript效 ...
- Effective Java2读书笔记-对于所有对象都通用的方法(二)
第10条:始终要覆盖toString 这一条没什么好讲的,就是说默认的toString方法打印出来的是类名+@+十六进制哈希码的值.我们应该覆盖它,使它能够展示出一些更为详细清晰的信息,这个看实际情况 ...
- C++指针初始化总结
1.字符指针的初始化 在c语言中 "string"保存的就是首个字符所在的地址 所以可以把 字符串常量"string" 赋值给指针 char *p; &qu ...
- Palindrome Subarrays
给定输入字符串,要求判断任意子字符串是否对称. 基本思路就是DP 写出DP表达式为 dp[i][j] = dp[i + 1][j - 1] && (s[i] == s[j]) dp[i ...
- bzoj4546-codechef XRQRS(可持久化Trie)
中文题题意我就不说了 解析: 可持久化Trie的模板题,详见注释 代码 #include<cstdio> #include<cstring> #include<strin ...
- poj 2697 A Board Game(bfs+hash)
Description Dao was a simple two-player board game designed by Jeff Pickering and Ben van Buskirk at ...
- 用WIFI为什么连不上VPN
因为是做服务器的,经常需要通过VPN连接到公司的服务器处理一些事件. 但最近一次在寝室通过WIFI连接VPN时却报“错误 619:不能建立到远程计算机的连接,因用于此端口的连接已关闭”.我的第一反应是 ...
- UITableView 滚动时隐藏键盘
#pragma mark - UItableView滚动时收键盘 - (void)scrollViewWillBeginDragging:(UITableView *)scrollView { [se ...
- xcode5下面安装Command Line Tools
运行命令 sudo xcode-select --install 就会显示一行文字,并且弹出一个对话框,确认安装后他就会自己下载来安装了. 至此,Command Line Tools就能够重新复活了
- STS(Spring Tool Suite)建立默认的spring mvc项目
引入响应的jar包解决报错: 由于国内的网络限制,下载会较慢.使用之前可自行更换maven的镜像路径,越近越好.