自学Python十二 战斗吧Scrapy!
初窥Scrapy
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
还是先推荐几个学习的教程:Scrapy 0.25文档 Scrapy快速入门教程 这些教程里面有关于Scrapy的安装,创建项目,爬取实例等等,如果一个全新的东西扔给你首先要看文档,初看文档我也是蒙蒙的,后来一层一层的去摸索才大概懂了个皮毛。我们就试着将之前的爬虫福利改写成用Scrapy框架的爬虫,在实践中学习。 战斗吧 Scrapy!
安装Scrapy
如果配置好了pip或者easy_install 可以直接pip install scrapy (从https://pip.pypa.io/en/latest/installing.html 安装 pip)
还需要从 http://sourceforge.net/projects/pywin32/ 安装 pywin32 (注:此处要注意了,这里pywin32的版本要跟你python的完全一致,比如你在64位系统安装的32位的python2.7 那么你也需要安装2.7 32位的pywin32) 否则遇到:Scrapy [twisted] CRITICAL:Unhandled error in Deferred
新建项目
因为我们要重写之前的项目,我们新建一个scrapy项目,命名为rosi: scrapy startproject rosi
可以看到目录里面包含:
rosi/
scrapy.cfg #项目的配置文件
rosi/ #该项目的Python模块,代码全在这里面
__init__.py
items.py #放多个model的地方
pipelines.py #顾名思义 管道,处理items结果的地方
settings.py #配置文件
spiders/ #爬虫代码
__init__.py
...
好了。。。说了这么多废话,接下来让我们深入基层!新建rosi项目,然后在rosi/rosi/spiders下面新建rosi_spider.py
import scrapy class RosiSpider(scrapy.spiders.Spider):
name = "rosi" #爬虫名字 唯一
allowed_domains = ["baidu.com"] #白名单
start_urls = ["http://www.baidu.com"] #爬取起始页面 def parse(self,response):#回调函数
print response.url
上面的代码就是一直简单的爬虫,默认爬取了百度首页。你如果问我,怎么爬取的,什么原理,怎么会爬取了,我只能这么回答你:我表达不出来,因为我也是刚学现在还一团浆糊,我现在只明白怎么用,至于原理,我想等我用的熟了,需要去更深的应用的时候我就会懂了,如果能看的下去可以去看看源码。。。不过我可以引用官方文档中的话来回答你:Scrapy为start_urls属性中的每个url都创建了一个Request对象,并将parse方法最为回调函数(callback)赋值给了Request。Request对象经过调度,执行生成scrapy.http.Response对象并返回给parse方法。
执行该爬虫:scrapy crawl rosi
我们既然知道了返回的是response,我们可以试着将里面我们需要的东西匹配读取保存下来,比如文字,比如图片。在Scrapy中呢他拥有自己的Selectors。使用了一种基于XPath和css的机制。深入的东西还是看官方文档:Selector文档 简单介绍介绍几个官方文档的例子:
/html/head/title
: 选择HTML文档中<head>
标签内的<title>
元素/html/head/title/text()
: 选择上面提到的<title>
元素的文字//td
: 选择所有的<td>
元素//div[@class="mine"]
: 选择所有具有class="mine"
属性的div
元素
Selector有4个基本方法:
xpath()
: 传入xpath表达式,返回该表达式所对应的所有节点的selector list列表 。css()
: 传入CSS表达式,返回该表达式所对应的所有节点的selector list列表.extract()
: 序列化该节点为unicode字符串并返回list。re()
: 根据传入的正则表达式对数据进行提取,返回unicode字符串list列表。
这里可以自行尝试一下利用XPath取出百度首页的title文字等等等等。
好了,重点来了。Scrapy中的BaseSpider爬虫类只能抓取start_urls中提供的链接,而利用Scrapy提供的crawlSpider类可以很方便的自动解析网页上符合要求的链接,从而达到爬虫自动抓取的功能。要利用crawSpider和BaseSpider的区别在于crawSpider提供了一组Rule对象列表,这些Rule对象规定了爬虫抓取链接的行为,Rule规定的链接才会被抓取,交给相应的callback函数去处理。
在rules中通过SmglLinkExtractor提取希望获取的链接。比如:
rules = (
Rule(SgmlLinkExtractor(allow = ('detail_\d{4}_\d{5}\.html')),callback = 'parse_image',follow=True),
)
这里要解释下,Rule就是一组对象列表,在这里我们设置要过滤的地址。SmglLinkExtractor的主要参数:
- allow:满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。
- deny:与这个正则表达式(或正则表达式列表)不匹配的URL一定不提取。
- allow_domains:会被提取的链接的domains。
- deny_domains:一定不会被提取链接的domains。
- restrict_xpaths:使用xpath表达式,和allow共同作用过滤链接。
- follow 指定这些通过规则匹配出来的链接是否需要继续,如果callback是None,follow默认为False,否则follow是True。通俗点讲呢就是如果设置为false 那么就访问了这个网站为止不再根据Rule判断该网址,如果设置为True 则继续从该网址里面选择符合Rule的网址出来继续访问。(举个例子:网站有25页,但是首页上提供的页面跳转的标号只有从1-10 后面的隐藏了,平常我们点开10页 页面标号是10-20 如果我们follow为false 我们只能得到1-10页的url 如果设置为True 则每次得到一页都去取标号,我们能得到所有的页码1-25.说的太乱了,一会儿代码中说。)
我们尝试着从首页得到符合规则的rosi跳转页面:
import scrapy
from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
class RosiSpider(CrawlSpider):
name = "rosi"
allowed_domains = ["5442.com"]
start_urls = ["http://www.5442.com/tag/rosi.html"]
rules = (Rule(SgmlLinkExtractor(allow=('rosi/[\d]+\.html', )),callback='parse_href',),)
def parse_href(self,response):#注意 回调函数不要命名为parse 否则出bug
print response.url
得到的结果如下:
天杀的,明明是1-25页好不好,怎么只有这么几个,上面说了如果不设置follow的话默认为false,所以访问了这个就不继续了,我们设置为True就对了。
我们还是要分析一下这个流程。我们从起始页面:http://www.5442.com/tag/rosi.html 我们需要得到符合条件为tag/rosi/[0-9]+/.html的所有页面,然后访问这些页面得到所有图片集的地址如:http://www.5442.com/meinv/20150904/27062.html和http://www.5442.com/meinv/20150904/27062_2.html,分析可得[0-9_]+\.html。这样我们就得到了所有包含我们需要下载图片url的地址,我们就可以根据XPath得到图片url进行下载。所以我们的爬虫Rule是这样的:
import scrapy,re,urllib2
from scrapy.http import Request
from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
from scrapydemo.items import * class RosiSpider(CrawlSpider):
name = "rosi"
number = 0
allowed_domains = ["5442.com"]
start_urls = ["http://www.5442.com/tag/rosi.html"]
rules = (Rule(SgmlLinkExtractor(allow=('rosi/[\d]+\.html', )),follow=True),
Rule(SgmlLinkExtractor(allow=('[0-9_]+\.html', )),callback='parse_img',follow=True)
)
第一条Rule我们得到了rosi的所有页面的信息,在访问这些页面的时候我们并不需要进行处理,所以我们不需要回调函数,然后我们从这些页面信息中提取出了所有的图片集页面,然后我们将图片集页面的返回值response给回调函数进行处理:
def parse_img(self,response):
#print response.url
sel = Selector(response)
src = sel.xpath("//div[@class='arcBody']//p[@id='contents']//a//img/@src").extract()
for item in src:
self.saveimg(item) def saveimg(self,url):
savePath = '%d.jpg'%(self.number)
print url
self.number += 1
try:
u = urllib2.urlopen(url)
r = u.read()
downloadFile = open(savePath,'wb')
downloadFile.write(r)
u.close()
downloadFile.close()
except:
print savePath,'can not download.'
可能我们要问了,这就完了? items.py 和 pipeline.py咋没用上呢。那就来谈谈这两个:
Items
爬取的主要目标就是从非结构性的数据源提取结构性数据,例如网页。 Scrapy提供 Item类来满足这样的需求。Item
对象是种简单的容器,保存了爬取到得数据。 其提供了 类似于词典(dictionary-like) 的API以及用于声明可用字段的简单语法。
import scrapy class Product(scrapy.Item):
name = scrapy.Field()
price = scrapy.Field()
stock = scrapy.Field()
他就是一个model,我们可以在回调函数中通过XPath得到内容 然后新建一个Item对象,赋值给他,
def parse_href(self,response):
items = []
item = Product()
item["name"] = "xxx"
item["price"] = "xxx"
items.append(item)
return items
注意,这里我们返回了一个items!!!当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或是被丢弃而不再进行处理。
以下是item pipeline的一些典型应用:
- 清理HTML数据
- 验证爬取的数据(检查item包含某些字段)
- 查重(并丢弃)
- 将爬取结果保存到数据库中
我们可以在pipelines.py中编写自己的itempipeline方法。你必须实现process_item(self,item,spider)方法。更多内容 看官方文档。。。
让我们来看一下以下这个假设的pipeline,它为那些不含税(price_excludes_vat
属性)的item调整了price
属性,同时丢弃了那些没有价格的item:
from scrapy.exceptions import DropItem class PricePipeline(object): vat_factor = 1.15 def process_item(self, item, spider):
if item['price']:
if item['price_excludes_vat']:
item['price'] = item['price'] * self.vat_factor
return item
else:
raise DropItem("Missing price in %s" % item)
以下pipeline将所有(从所有spider中)爬取到的item,存储到一个独立地 items.jl
文件,每行包含一个序列化为JSON格式的item:
import json class JsonWriterPipeline(object): def __init__(self):
self.file = open('items.jl', 'wb') def process_item(self, item, spider):
line = json.dumps(dict(item)) + "\n"
self.file.write(line)
return item
好了,今天就到这儿吧。。。其实我现在也蒙蒙的,接下来就是在实际应用中去提升了,毕竟熟能生巧!!战斗吧 Scrapy!
自学Python十二 战斗吧Scrapy!的更多相关文章
- Python爬虫从入门到放弃(十二)之 Scrapy框架的架构和原理
这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是 ...
- 零基础自学Python十天,写了一款猜数字小游戏,附源码和软件下载链接!
自学一门语言最重要的是要及时给自己反馈,那么经常写一些小程序培养语感很重要,写完可以总结一下程序中运用到了哪些零散的知识点. 本程序中运用到的知识点有: 1.输入输出函数 (input.print) ...
- python(十二)下:ORM框架SQLAlchemy使用学习
此出处:http://blog.csdn.net/fgf00/article/details/52949973 本节内容 ORM介绍 sqlalchemy安装 sqlalchemy基本使用 多外键关联 ...
- 自学Python十 爬虫实战三(美女福利续)
我又来送福利啦!!!不同于上篇文章,这次我们的爬虫采用了多线程,一直以来被所谓的分布式 多线程 爬虫 给唬的怕怕的.今天就来一发多线程爬虫吧,还能看妹子图,想想就觉得很激动!!! 依然是流程解释: ...
- 零基础自学Python十天的时候,写的一款猜数字小游戏,附源码和软件下载链接!
自学一门语言最重要的是要及时给自己反馈,那么经常写一些小程序培养语感很重要,写完可以总结一下程序中运用到了哪些零散的知识点. 本程序中运用到的知识点有: 1.输入输出函数 (input.print) ...
- 轻松自动化---selenium-webdriver(python) (十二)
本节重点: l 键盘按键用法 l 键盘组合键用法 l send_keys() 输入中文运行报错问题 键盘按键键用法: #coding=utf-8 from selenium import webdri ...
- python(十二):网络编程之ISO/OSI模型
互联网(Internet)是依据操作系统,在计算机硬件的基础上建立起的通讯机制.它依赖于TCP/IP协议栈. 一.ISO/OSI模型 1.ISO七层模型与OSI五层模型 它们将计算机抽象成了具有层级关 ...
- Python(十二) Pythonic与Python杂记
一.导言 二.用字典映射代替switch case语句 # 字典代替 switch 语句 # switch () # { # case 0 : # dayName= 'a'; # break; # ...
- 爬虫(十二):scrapy中spiders的用法
Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 以初始的URL初始化Request,并设 ...
随机推荐
- idea中找不到maven projects的集中解决办法
今天正常打开idea,却发现maven窗口找不到了:试了这些方法 首先idea自带了maven控件,不像Eclipse还需要下载控件,如果你以前有maven在右边,出于某种原因,消失找不到 了,你可以 ...
- 55. spring boot 服务配置和部署【从零开始学Spring Boot】
Spring Boot 其默认是集成web容器的,启动方式由像普通Java程序一样,main函数入口启动.其内置Tomcat容器或Jetty容器,具体由配置来决定(默认Tomcat).当然你也可以将项 ...
- HBase单节点的安装与配置
HBase的安装配置1.下载:http://mirror.bit.edu.cn/apache/hbase/stable/ hbase-1.2.6-bin是直接编译好的,直接安装. hbase- ...
- 解决canvas跨域问题(图片,视频资源跨域)
添加跨域条件 crossorigin="anonymous" [Redirect at origin 'http://xxx.xx.com' has been blocked ...
- C#: 根据指定压缩比率压缩图片
直接上代码: /// <summary> /// 根据指定压缩比率压缩图片 /// </summary> /// <param name="original&q ...
- 【CV知识学习】【转】beyond Bags of features for rec scenen categories。基于词袋模型改进的自然场景识别方法
原博文地址:http://www.cnblogs.com/nobadfish/articles/5244637.html 原论文名叫Byeond bags of features:Spatial Py ...
- FloatingActionMenu 向上弹出菜单
本人在github上找到了一个FloatingActionsMenu,精简了其效果(原效果有上下左右四个方向)仅仅保留向上的效果,并做了一定的优化. github上的源代码:地址 ,精简后的源代码地址 ...
- 自由宣言--《I Have a Dream》(马丁.路德.金)
I Have a Dream by Martin Luther King, Jr. I am happy to join with you today in what will go down in ...
- 金典 SQL笔记(6)
page223-索引 --利用SQL 语句创建索引 --CREATE INDEX 索引名称on 表名(字段 ,字段, 字段字段n) --索引名称必须为唯一的,字段 ,字段, 同意一个到多个 --范例为 ...
- poj 1390 Blocks (记忆化搜索)
Blocks Time Limit: 5000MS Memory Limit: 65536K Total Submissions: 4318 Accepted: 1745 Descriptio ...