Scrapy框架初探

Scrapy 貌似是 Python 最出名的爬虫框架

0. 文档##

中文文档：https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

官方文档：https://docs.scrapy.org/en/latest/

中文文档很旧了，建议直接看官方英文文档。

1. 安装##

pip install scrapy

还有什么不是这么装的吗。。

2. 新建项目##

scrapy startproject <projectname>

非常简单，进入你要放项目的目录，一行命令scrapy自动帮你生成项目框架文件，结构如下：

tutorial/

scrapy.cfg            # 框架配置文件

tutorial/             # 整个项目目录

    __init__.py

    items.py          # 数据结构在这里定义

    pipelines.py      # 管道处理

    settings.py       # 项目配置文件

    spiders/          # 爬虫目录

        __init__.py

3. 流程介绍##

items.py 定义你所爬取的目标数据的结构。比如你要抓取贴吧，那么结构应该类似用户-头像-主帖id-帖子id-帖子内容-其他等等。如果抓取知乎，数据结构应该类似用户-头像-签名-回答-问题id-点赞数-评论数。简单来说，就是设计表结构。
pipelines.py 按照设计者命名来分析，这个管道的作用是将抓取的数据进行一定的处理封装，里面内置的 parse_item 方法也从名字上印证这一点。比如抓到的是转码数据，在这里可以解码翻译。实际项目中通常在这里进行数据库落地操作，把抓取的 item 存入mysql或者mogodb，最后再 return item 即可。
spiders/xxx.spider.py 实际的爬虫策略都在这个目录下。一个文件表示一个爬虫。通常的流程是初始链接（首页或者登录页） -- 分析内容，在回调中继续抓取下一页（执行登录操作） -- 继续分析内容，回调抓取... 这里我们不用考虑cookie，scrapy会自动帮我们处理。

4. 小结##

如果之前有用 urllib 进行过爬虫联系，那么只要熟悉了scrapy框架的各个文件作用，使用scrapy可以说是收到擒来.有几个参考方法:

post请求（登录用到）： formRequest
分析网页内容： response.css()

Scrapy框架初探的更多相关文章

Python爬虫 ---scrapy框架初探及实战
目录 Scrapy框架安装操作环境介绍安装scrapy框架(linux系统下) 检测安装是否成功 Scrapy框架爬取原理 Scrapy框架的主体结构分为五个部分: 它还有两个可以自定义下载功能的 ...
Scrapy 框架进阶笔记
上一篇简单了解了scrapy各个模块的功能:Scrapy框架初探 -- Dapianzi卡夫卡在这篇通过一些实例来深入理解 scrapy 的各个对象以及它们是怎么相互协作的 settings.py ...
scrapy架构初探
scrapy架构初探引言 Python即时网络爬虫启动的目标是一起把互联网变成大数据库.单纯的开放源代码并不是开源的全部,开源的核心是"开放的思想",聚合最好的想法.技术.人员, ...
scrapy框架爬取豆瓣读书（1）
1.scrapy框架 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试 ...
Python爬虫Scrapy框架入门（2）
本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写 ...
Python爬虫Scrapy框架入门（1）
也许是很少接触python的原因,我觉得是Scrapy框架和以往Java框架很不一样:它真的是个框架. 从表层来看,与Java框架引入jar包.配置xml或.property文件不同,Scrapy的模 ...
Scrapy框架使用—quotesbot 项目（学习记录一）
一.Scrapy框架的安装及相关理论知识的学习可以参考:http://www.yiibai.com/scrapy/scrapy_environment.html 二.重点记录我学习使用scrapy框架 ...
Python爬虫从入门到放弃（十一）之 Scrapy框架整体的一个了解
这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider ...
Python爬虫从入门到放弃（十二）之 Scrapy框架的架构和原理
这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是 ...

随机推荐

python遍历并获取对象属性--dir(),__dict__,getattr,setattr
一.遍历对象的属性: 1.dir(obj) :返回对象的所以属性名称字符串列表(包括属性和方法). for attr in dir(obj): print(attr) 2.obj.__dict__:返 ...
FFMPEG实现的转码程序
本例子是由FFEMPG的doc/example例子transcode.c修改而来,可以根据需求任意转换音视频的编码. 原来的例子的作用更类似于remux,并没有实现转码的功能,只是实现了格式转换,比如 ...
bzoj 4771: 七彩树树链的并+可持久化线段树
题目大意: 给定一颗树,询问树中某个点x的子树中与其距离不超过d的所有点中本质不同的颜色数强制在线题解: 一下午终于把这道题叉掉了. 写了三个算法,前两个都是错的,后一个是%的网上大爷们的题解. ...
openfire存储中文字符乱码解决办法
转载于: Xmpp问题总结:处理Openfire 中文乱码问题(2) openfire是一个非常不错的IM服务器,而且是纯Java实现,具有多个平台的版本,他的数据存储可以采用多种数据库,如MySQL ...
poj 1273 Drainage Ditches（最大流，E-K算法）
一.Description Every time it rains on Farmer John's fields, a pond forms over Bessie's favorite clove ...
java代码for循环+缓冲流类
总结:这个结果竟然是对的.我错了. package com.da; //创建一个String对象的数组,然后执行读取文本,把文本每一行存入数组,它将读取到100行 //或直接到你按”stop“才停止, ...
Framework配置错误
转自:http://blog.csdn.net/ked/article/details/25052955 VS2012命令提示符无法使用的解决方法打开VS2012命令提示符时报错“ERROR: Ca ...
ES6学习之函数扩展
函数默认参数 function test(x = 1, y = 2) { return x + y } test(5, 6) test() 若默认参数在必须参数之前,要想取得默认参数,只有当传入的值为 ...
C# 利用委托和事件传入一个参数进行进行计算并返回结果
一.委托定义 1: public class TestData 2: { 3: //定义委托 4: public delegate void Get_TestDataEventHandler(Get_ ...
Java enum（枚举）使用详解之三
DK1.5引入了新的类型——枚举.在 Java 中它虽然算个“小”功能,却给我的开发带来了“大”方便. 用法一:常量在JDK1.5 之前,我们定义常量都是: publicstaticfianl... ...

Scrapy框架初探

0. 文档##

1. 安装##

2. 新建项目##

3. 流程介绍##

4. 小结##

Scrapy框架初探的更多相关文章

随机推荐

热门专题