Scrapy见面第五天

这算是我第一次使用框架吧，说来羞愧。

此前用Request带上cookie实现、（略微）完好了QQ空间的爬虫（传送门），接下来想实现分布式去爬。

事实上仅仅要能实现待爬QQ队列的共享，分布式的主要问题也就攻克了。可是认为这样实现的爬虫项目有点“不正规”，所以想用Scrapy框架和Redis数据库来整顿现有爬虫。

无奈公司里也没什么人指点。全凭一人摸爬滚打，过程有点痛苦。但自信仅仅要敢啃。还是能够拿下的。不成问题。

然后就动手了。

（忽略安装过程，预计是曾经用其它模块的时候已经吐血吐够了，环境都配好了，居然直接用 pip install scrapy 就成功了）

第一步、当然是百度。看看传说中的“正规军”是什么样子的。高速了解了一下Scrapy工作机制，以及大家在使用scrapy的时候关注的点很多其它在哪里。然而看的都是似懂非懂，。然而并不重要，我仅仅须要和它碰个面即可。

第二步、搜GitHub。找代码。搜了十几个demo，高速看了一下scrapy的代码结构。

第三步、从各种平台搜索和Scrapy有关的东西。特别是大家对它的看法。主要途径：新浪微博、知乎、推酷、Google。

第四步、调试、执行从GitHub上download下来的demo，大约了解scrapy详细的执行机制。

第五步、是时候静下心来啃Scrapy的官方文档了，受益良多。

第六步、糗事百科作靶子，模仿demo实战练习。再功能延生。

第七步、即现在。第五天。

事实上遇到的问题还是挺多的，基本的原因是对Scrapy了解不够深入。

想要入门Scrapyeasy，可是想要单枪匹马高速入门，就非常须要看重怎么走了。

我是想着先实现简单的Scrapy爬虫。再用Redis实现分布式。在此之后再进行功能拓展，比如Cookie登录，比如爬虫数据的添加，比如异常处理、性能优化等等。整体的思路是先纵向深入，再横向逐个拓展。

计划虽是这样，但终归还是没忍住花了一天时间动手实现了一下QQ空间和新浪微博的Scrapy爬虫。自增苦恼。只是有所收获。

首先是QQ空间。我之前是用Request的session带上Cookie去打开js的请求，返回来的是js文件，里面包括我所须要的信息。

直接请求js文件的优点是数据量小。数据流通和数据处理的花销会小非常多（反正我的小本本一个小时能抓17万条说说）。

而现在。我用Scrapy带上Cookie却返回403（已带表头），我试着打开空间主页的URL。返回的是HTML文件，这非常正常，没有JS文件。但为什么打开JS的请求却报错403了呢？这个问题暂先放着。事实上空间更蛋疼的问题还没解决呢——Cookie。普通的登录（比如知乎）是发送个表单即可了，但QQ空间的表单。年轻的我没有找到（预计要一点点调试看它的加密算法了，之前的爬虫我是用phantomjs模拟浏览器获取到的）。百度和Google也没有搜到结果。甚至爬QQ空间人就非常少。大伙对它没兴趣？

QQ空间爬不成，我试一下微博。

非常明显大伙对微博的兴趣就高非常多了，已经有加密算法和构造表单的方法了。并且我在查看Cookie的时候看到新浪的Cookie有效期是六天左右（未检验）（QQ空间的Cookie有效期在几十分钟到十几个钟不等）。假设是这种话我们就算手动输入Cookie那也没什么呀。

只是微博另一个问题。JS载入。

网上的说法是构造下载中间件。详细还有待解决。

只是此时看到scrapy的那张架构图（例如以下）就第二种感觉了呀。最终对各个部分有一点认识了！只是假设用Redis实现分布式的话Pipeline和Scheduler之间是不是应该要有个数据流通呀？

感觉当前的难点很多其它的还是在右半边。获取数据。

接下来。构造中间件。

继续勘探。尽快熟悉Scrapy与分布式！

转载请注明出处，谢谢！

（原文链接：http://blog.csdn.net/bone_ace/article/details/50811004）

Scrapy见面第五天的更多相关文章

Learning Scrapy笔记（五）- Scrapy登录网站
摘要:介绍了使用Scrapy登录简单网站的流程,不涉及验证码破解简单登录很多时候,你都会发现你需要爬取数据的网站都有一个登录机制,大多数情况下,都要求你输入正确的用户名和密码.现在就模拟这种情况, ...
python3下scrapy爬虫(第五卷:初步抓取网页内容之scrapy全面应用）
现在爬取http://category.dangdang.com/pg1-cid4008149.html网址上的商品价格,名称,评价数量先准备下下数据:商品名,商品链接,评价数量第一步:在item ...
Scrapy 5+1 ——五大坑附送一个小技巧
笔者最近对scrapy的学习可谓如火如荼,虽然但是,即使是一整天地学习下来也会有中间两三个小时的"无效学习",不是笔者开小差,而是掉进了深坑出不来. 在此,给各位分享一下作为一名S ...
Learning Scrapy笔记（六）- Scrapy处理JSON API和AJAX页面
摘要:介绍了使用Scrapy处理JSON API和AJAX页面的方法有时候,你会发现你要爬取的页面并不存在HTML源码,譬如,在浏览器打开http://localhost:9312/static/, ...
scrapy 日志处理
Scrapy生成的调试信息非常有用,但是通常太啰嗦,你可以在Scrapy项目中的setting.py中设置日志显示等级: LOG_LEVEL = 'ERROR' 日志级别 Scrapy日志有五种等级, ...
使用Scrapy自带的ImagesPipeline下载图片，并对其进行分类。
ImagesPipeline是scrapy自带的类,用来处理图片(爬取时将图片下载到本地)用的. 优势: 将下载图片转换成通用的JPG和RGB格式避免重复下载缩略图生成图片大小过滤异步下载 . ...
Spider_Man_6 の Scrapy（未完待续）
一:自我介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所 ...
Scrapy 组件的具体用法
一.Spider 用法在 Scrapy 中,要抓取网站的链接配置.抓取逻辑.解析逻辑都是在 Spider 里完成的.Spider 的一些基础属性和基础方法: name:爬虫名字,Spider的名字定 ...
Spider-scrapy日志处理
Scrapy生成的调试信息非常有用,但是通常太啰嗦,你可以在Scrapy项目中的setting.py中设置日志显示等级: LOG_LEVEL = 'ERROR' 日志级别 Scrapy日志有五种等级, ...

随机推荐

ExtJS4.1 ExtJS TabPanel 双击标签关闭该页
/*总觉得 TabPanel 生成的那个关闭按钮太小关闭的时候不太顺手感觉不方便所以想双击关闭tab方便些于是在网上找到下面的代码 URL:http://atian25.iteye.com/blo ...
DC-DC converter Control techniques
As shown in figure 3.4, PWM controller contains two main parts; voltage error-amplifier and voltage ...
iOS Sqlite加密(FMDB/SQLCipher)
/** * 对数据库加密 * * @param path path description * * @return return value description */ + (BOOL)encryp ...
Eclipse NDK 配置，不用安装Cygwin
一.关于NDK:NDK全称:Native Development Kit.1.NDK是一系列工具的集合.NDK提供了一系列的工具,帮助开发者快速开发C(或C++)的动态库,并能自动将so和java应用 ...
用JavaScript修改Canvas图片的分辨率(DPI)
应用场景: 仓库每次发货需要打印标签, Canvas根据从数据库读取的产品信息可以生成标签JPG, 但是这个JPG图片的默认分辨率(DPI)是72 这个DPI太低, 导致打印出来的图片会很模糊. 修改 ...
zendstudio采用xdebug调试，断点不停的解决
查看zendstudio里windows->preferences->PHP->PHP Executables,编辑列表项,弹出框的Debugger看看还是不是xdebug.
iOS: iOS各种设备信息获取
Author:si1ence Link:http://www.jianshu.com/p/b23016bb97af 为了统计用户信息.下发广告,服务器端往往需要手机用户设备及app的各种信息,下面讲述 ...
Android NDK开发----- JNI多线程
一.概述 JNI编程和Linux上的C/C++编程还是挺相似的,每次java调用JNI中的函数时都会传入有关JVM的一些参数(如JNIEnv,jobject),每次JNI回调java中的方法时都要通过 ...
8个使用JavaScript展示图片解决方案
1. JonDesign’s SmoothGallery 2.0 SmoothGallery demo 2. (E)2 Photo Gallery (E)2 Photo Gallery demo 3. ...
C# 轻松实现对窗体（Form）换肤[转]
一直想写一个比较完整的.容易扩展的窗体换肤的方案,由于时间问题,都没去实现这个想法.现在有朋友提出需要,就把以前写的重新拿出来看了一篇,花了些时间,做出了现在的这个换肤的方案.实现的过程中遇到了不少问 ...

Scrapy见面第五天

Scrapy见面第五天的更多相关文章

随机推荐

热门专题