用scrapy数据抓取实践

本文来自网易云社区

作者：沈高峰

数据分析中需要用到的不少数据都是需要进行抓取的，并且需要对抓取的数据进行解析之后存入数据库。
scrapy是一个强大的爬虫框架，本文简单介绍下使用scrapy进行垂直抓取的实践。
scrapy整体构架如下图所示，进行简单网页抓取时，仅仅需要填充Spider和Item Pipeline部分代码就可以了，其他内容，scrapy都会自动处理好。

安装完scrapy之后，通过下面几条简单的命令就可以生成一个爬虫了。
scrapy startproject xy3
cd xy3/
scrapy genspider dhxy3 xy3.netease.com
整个工程的目录结构如下：
├── scrapy.cfg                   #工程信息
└── xy3
    ├── __init__.py
    ├── items.py                 #需要解析出来的内容
    ├── pipelines.py             #处理解析出来的items
    ├── settings.py              #爬虫的设置内容
    └── spiders
        ├── dhxy3.py             #解析内容，生成新的请求规则的蜘蛛
        └── __init__.py

接下来往工程里面填充内容就可以了。
简单的来说，spider的作用就是生成scrapy.Request、scrapy.Item对象。
在scrapy.Request中定义回调函数来处理Responses，通过在settings中定义pipelines来处理scrapy.Item。

下面是一个简单的抓取实例，cd到有 xy3.db 的目录下（xy3/xy3）,然后执行 scrapy crawl dhxy3 就可以进行数据的抓取了。
效果就是将http://xy3.netease.com 这个论坛的列表中的作者和标题字段抓出来，然后存放到sqlite数据库中。

网易云免费体验馆，0成本体验20+款云产品！

更多网易研发、产品、运营经验分享请访问网易云社区。

相关文章：
【推荐】测试周期内测试进度报告规范
【推荐】什么是高防服务器?
【推荐】 jq 一个强悍的json格式化查看工具

用scrapy数据抓取实践的更多相关文章

利用python scrapy 框架抓取豆瓣小组数据
因为最近在找房子在豆瓣小组-上海租房上找,发现搜索困难,于是想利用爬虫将数据抓取. 顺便熟悉一下Python. 这边有scrapy 入门教程出处:http://www.cnblogs.com/txw1 ...
网页数据抓取工具，webscraper 最简单的数据抓取教程，人人都用得上
Web Scraper 是一款免费的,适用于普通用户(不需要专业 IT 技术的)的爬虫工具,可以方便的通过鼠标和简单配置获取你所想要数据.例如知乎回答列表.微博热门.微博评论.淘宝.天猫.亚马逊等电商 ...
python爬虫数据抓取方法汇总
概要:利用python进行web数据抓取方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返 ...
python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南为什么要做爬虫著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...
Python数据抓取（1） —数据处理前的准备
(一)数据抓取概要为什么要学会抓取网络数据? 对公司或对自己有价值的数据,80%都不在本地的数据库,它们都散落在广大的网络数据,这些数据通常都伴随着网页的形式呈现,这样的数据我们称为非结构化数据如 ...
Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）
概要这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据) http://blog.csdn.net/jokerkon/article/details/50868 ...
Phantomjs+Nodejs+Mysql数据抓取（1.数据抓取）
概要: 这篇博文主要讲一下如何使用Phantomjs进行数据抓取,这里面抓的网站是太平洋电脑网估价的内容.主要是对电脑笔记本以及他们的属性进行抓取,然后在使用nodejs进行下载图片和插入数据库操作. ...
Java实现多种方式的http数据抓取
前言: 时下互联网第一波的浪潮已消逝,随着而来的基于万千数据的物联网时代,因而数据成为企业的重要战略资源之一.基于数据抓取技术,本文介绍了java相关抓取工具,并附上demo源码供感兴趣的朋友测试! ...
R语言XML包的数据抓取
htmlParse 函数 htmlParse加抓HTML页面的函数. url1<-"http://www.caixin.com/"url<-htmlParse(url1 ...

随机推荐

C盘空间太大，分区助手减小分区大小教程
首先看一个需要缩小C盘或需要减少分区空间的一个例子:“我的电脑里C盘剩余空间为530GB,除了C盘外还有一个D盘,但D盘的空间不到30GB,另外还有两个隐藏分区,一个200MB,一个15GB.我想把C ...
好的学习网站和app推荐
1 W3cschool: http://www.w3school.com.cn/ 菜鸟教程: http://www.runoob.com/ 2 视频学习网站和app:网易云课堂.腾讯课堂.慕课网(h ...
innerHTML动态添加html代码和脚本兼容性问题处理方法
给某个元素的innerHTML赋值,并使得值中的js代码有效(兼容多个浏览器) 症状:给某个元素的 innerHTML 设置值时,如果提供的 HTML 代码中包含js脚本,很多时候这些脚本无效,或者在 ...
返回json格式不忽略null字段
返回json格式不忽略null字段发布于 353天前作者 king666 271 次浏览复制上一个帖子下一个帖子标签: json 如题,一个实体的某个字段如果为null,在 ...
解决Jenkins的错误“The Server rejected the connection: None of the protocols were accepted”
1. 配置节点,配置好节点后,在节点机上运行已下载文件,双击执行,提示"The Server rejected the connection: None of the protocols w ...
hdu-2688 Rotate---树状数组+模拟
题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=2688 题目大意: 给你n数,(n<=3e6),有两个操作,Q为当前有多少对数,满足严格递增, ...
LA 2957 最大流，最短时间，输出路径
题目链接:https://icpcarchive.ecs.baylor.edu/index.php?option=com_onlinejudge&Itemid=8&category=1 ...
Java从入门到放弃——02.常量、变量、数据类型、运算符
本文目标理解什么是常量,什么是变量认识八大基本数据类型了解算数运算符.赋值运算符.关系运算符.逻辑运算符.位运算符.三元运算符 1.什么是常量与变量? 常量是相对静止的量,比如整数:1,2,3 ...
2017.11.17 C++系列---用malloc动态给c++二维数组的申请与释放操作
方法一:利用二级指针申请一个二维数组. #include<stdio.h> #include<stdlib.h> int main() { int **a; //用二级指针动态 ...
为什么实例没有prototype属性？什么时候对象会有prototype属性呢？
为什么实例没有prototype属性?什么时候对象会有prototype属性呢? javascript loudou 1月12日提问关注 9 关注收藏 6 收藏,554 浏览问题对人有帮助,内容 ...

用scrapy数据抓取实践

用scrapy数据抓取实践的更多相关文章

随机推荐

热门专题