原创,转载注明:http://blog.csdn.net/u012150179/article/details/34913315

一.目的。

在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构,

在pipelines.py中实现获得数据的过滤以及保存。

可是以上述方法仅仅能爬取start_url列表中的网页。而网络爬虫如google等搜索引擎爬虫实现的就是对整个互联网的爬取,所以在本教程中研究使用scrapy自己主动实现多网页爬取功能。

在教程(五)(http://blog.csdn.net/u012150179/article/details/34486677)中已经编写继承自spider的类实现爬虫。实现了自己主动多网页爬取,这里引出CrawlSpider类,使用更简单方式实现自己主动爬取。

二.热身。

    1.CrawlSpider

    (1)概念与作用:

    它是Spider的派生类。首先在说下Spider,它是全部爬虫的基类,对于它的设计原则是仅仅爬取start_url列表中的网页。而从爬取的网页中获取link并继续爬取的工作CrawlSpider类更适合。

    (2)使用:

    它与Spider类的最大不同是多了一个rules參数,其作用是定义提取动作。在rules中包括一个或多个Rule对象,Rule类与CrawlSpider类都位于scrapy.contrib.spiders模块中。

    1. class scrapy.contrib.spiders.Rule (
    2. link_extractor, callback=None,cb_kwargs=None,follow=None,process_links=None,process_request=None )

                     当中:

link_extractorLinkExtractor,用于定义须要提取的链接。

callback參数:当link_extractor获取到链接时參数所指定的值作为回调函数。

                      callback參数使用注意:

当编写爬虫规则时,请避免使用parse作为回调函数。于CrawlSpider使用parse方法来实现其逻辑,假设您覆盖了parse方法。crawlspider将会执行失败。



follow:指定了依据该规则从response提取的链接是否须要跟进。当callback为None,默认值为true

process_links:主要用来过滤由link_extractor获取到的链接。

process_request:主要用来过滤在rule中提取到的request

2.LinkExtractor

(1)概念:

顾名思义。链接提取器。

(2) 作用:

response对象中获取链接,而且该链接会被接下来爬取。

(3) 使用:

通过SmglLinkExtractor提取希望获取的链接。

  1. classscrapy.contrib.linkextractors.sgml.SgmlLinkExtractor(
  2. allow=(),deny=(),allow_domains=(),deny_domains=(),deny_extensions=None,restrict_xpaths=(),tags=('a','area'),attrs=('href'),canonicalize=True,unique=True,process_value=None)

主要參数:

allow:满足括号里“正則表達式”的值会被提取,假设为空,则所有匹配。

deny:与这个正則表達式(或正則表達式列表)不匹配的URL一定不提取。

allow_domains:会被提取的链接的domains。

deny_domains:一定不会被提取链接的domains。

restrict_xpaths:使用xpath表达式,和allow共同作用过滤链接。

三.RUN!

  1. shell中验证

    開始编写代码之前。使用scrapyshell查看使用SmglLinkExtractor在网页中获取到的链接:

    1. scrapy shell http://blog.csdn.net/u012150179/article/details/11749017

    继续import相关模块:

    1. fromscrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

    如今使用SgmlLinkExtractor查看在当前网页中获得的链接:

    1. item=SgmlLinkExtractor(allow=('/u012150179/article/details')).extract_links(response)

    当中item为包括Link()对象的列表。如今显示当中的text元素(就是获取到的文章链接相应的文章标题):

    1. for i in item:
    2. print i.text

    部分结果截图:

    对比网页能够得到此时获取的是当前网页中全部满足allow条件的链接,不仅包括“下一篇”的链接,还有网页側边栏“阅读排行“、”评论排行“中的文章链接。为了仅仅获得”下一篇“文章链接,这就要进行全部链接的筛选。引入參数restrict_xpaths,继续:

    1. item= SgmlLinkExtractor(allow=('/u012150179/article/details'),restrict_xpaths=('//li[@class="next_article"]')).extract_links(response)

    这是在如上查看结果,便提取出了“下一篇”文章链接。

    注意:在shell中并不正确提取到的link进行跟进。

    在这里不得不提的就是scrapy shell是对调试、验证非常实用的交互工具。应该掌握。

    在shell中进行了验证后进入写代码阶段。

编写代码

(1)items.py和pipelines.py以及settings.py与之前教程类似,不具体描写叙述。

(2)爬虫编写。

上码:

  1. # -*- coding:utf-8 -*-
  2.  
  3. from scrapy.contrib.spiders import CrawlSpider, Rule
  4. from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
  5. from scrapy.selector import Selector
  6. from CSDNBlogCrawlSpider.items import CsdnblogcrawlspiderItem
  7.  
  8. class CSDNBlogCrawlSpider(CrawlSpider):
  9.  
  10. """继承自CrawlSpider,实现自己主动爬取的爬虫。
  11.  
  12. """
  13.  
  14. name = "CSDNBlogCrawlSpider"
  15. #设置下载延时
  16. download_delay = 2
  17. allowed_domains = ['blog.csdn.net']
  18. #第一篇文章地址
  19. start_urls = ['http://blog.csdn.net/u012150179/article/details/11749017']
  20.  
  21. #rules编写法一。官方文档方式
  22. #rules = [
  23. # #提取“下一篇”的链接并**跟进**,若不使用restrict_xpaths參数限制。会将页面中所有
  24. # #符合allow链接所有抓取
  25. # Rule(SgmlLinkExtractor(allow=('/u012150179/article/details'),
  26. # restrict_xpaths=('//li[@class="next_article"]')),
  27. # follow=True)
  28. #
  29. # #提取“下一篇”链接并运行**处理**
  30. # #Rule(SgmlLinkExtractor(allow=('/u012150179/article/details')),
  31. # # callback='parse_item',
  32. # # follow=False),
  33. #]
  34.  
  35. #rules编写法二,更推荐的方式(自己測验。使使用方法一时常常出现爬到中间就finish情况,而且无错误码)
  36. rules = [
  37. Rule(SgmlLinkExtractor(allow=('/u012150179/article/details'),
  38. restrict_xpaths=('//li[@class="next_article"]')),
  39. callback='parse_item',
  40. follow=True)
  41. ]
  42.  
  43. def parse_item(self, response):
  44.  
  45. #print "parse_item>>>>>>"
  46. item = CsdnblogcrawlspiderItem()
  47. sel = Selector(response)
  48. blog_url = str(response.url)
  49. blog_name = sel.xpath('//div[@id="article_details"]/div/h1/span/a/text()').extract()
  50.  
  51. item['blog_name'] = [n.encode('utf-8') for n in blog_name]
  52. item['blog_url'] = blog_url.encode('utf-8')
  53.  
  54. yield item

执行:

  1. scrapy crawl CSDNBlogCrawlSpider

得到的效果如教程(五)一致。

当中指出和教程(五)所编写爬虫方法的差异:

首先。基类CrawlSpider提供了更完好的自己主动多网页爬取机制,仅仅须要我们配置的就是rules,通过Rule对象实现链接的提取与跟进。恩,对,没了。

。。

就这样。

具体的凝视也都在程序中。

进行到这里,就将本篇文章主题讲述完成。核心是CrawlSpider,主要方法是rules。

关于scrapy的使用可參见之前文章:

http://blog.csdn.net/u012150179/article/details/34913315

http://blog.csdn.net/u012150179/article/details/34486677

http://blog.csdn.net/u012150179/article/details/34441655

http://blog.csdn.net/u012150179/article/details/32911511

Scrapy研究探索(六)——自己主动爬取网页之II(CrawlSpider)的更多相关文章

  1. scrapy研究探索(二)——爬w3school.com.cn

    下午被一个问题困扰了好一阵.终于使用还有一种方式解决. 開始教程二.关于Scrapy安装.介绍等请移步至教程(一)(http://blog.csdn.net/u012150179/article/de ...

  2. python3下scrapy爬虫(第八卷:循环爬取网页多页数据)

    之前我们做的数据爬取都是单页的现在我们来讲讲多页的 一般方式有两种目标URL循环抓取 另一种在主页连接上找规律,现在我用的案例网址就是 通过点击下一页的方式获取多页资源 话不多说全在代码里(因为刚才写 ...

  3. Scrapy研究探索(三)——Scrapy核心架构与代码执行分析

    学习曲线总是这样,简单样例"浅尝".在从理论+实践慢慢攻破.理论永远是基础,切记"勿在浮沙筑高台". 一. 核心架构 关于核心架构.在官方文档中阐述的非常清晰, ...

  4. 【网络爬虫】【python】网络爬虫(五):scrapy爬虫初探——爬取网页及选择器

    在上一篇文章的末尾,我们创建了一个scrapy框架的爬虫项目test,现在来运行下一个简单的爬虫,看看scrapy爬取的过程是怎样的. 一.爬虫类编写(spider.py) from scrapy.s ...

  5. Python网页解析库:用requests-html爬取网页

    Python网页解析库:用requests-html爬取网页 1. 开始 Python 中可以进行网页解析的库有很多,常见的有 BeautifulSoup 和 lxml 等.在网上玩爬虫的文章通常都是 ...

  6. python3爬取网页

    爬虫 python3爬取网页资源方式(1.最简单: import'http://www.baidu.com/'print2.通过request import'http://www.baidu.com' ...

  7. [python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】

    [python] 常用正则表达式爬取网页信息及分析HTML标签总结 转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...

  8. python(27)requests 爬取网页乱码,解决方法

    最近遇到爬取网页乱码的情况,找了好久找到了种解决的办法: html = requests.get(url,headers = head) html.apparent_encoding html.enc ...

  9. python学习之——爬取网页信息

    爬取网页信息 说明:正则表达式有待学习,之后完善此功能 #encoding=utf-8 import urllib import re import os #获取网络数据到指定文件 def getHt ...

随机推荐

  1. js代码从页面移植到文件里失效或js代码改动后不起作用的解决的方法

    近期在做关于站点的项目,总是发生这种问题 写的javascript代码在页面上没有问题,可是将js代码移植到.js的文件里,在页面上进行调用,总是出现失效等错误 另外改动后的js代码,又一次刷新网页仍 ...

  2. RecyclerView的点击事件

    RecyclerView 一.简单介绍 这个是谷歌官方出的控件.使我们能够很easy的做出列表装的一个控件,当然recyclerview的功能不止这些,它还能够做出瀑布流的效果,这是一个很强大的控件, ...

  3. POJ1390 Blocks 【动态规划】

    Blocks Time Limit: 5000MS   Memory Limit: 65536K Total Submissions: 4173   Accepted: 1661 Descriptio ...

  4. Android 获取屏幕截图 和保存到本地的sd卡路径下

    /** * 获取和保存当前屏幕的截图 */ private void GetandSaveCurrentImage() { //1.构建Bitmap WindowManager windowManag ...

  5. SpringMVC-Interceptor拦截Session登录

    背景: 开发的项目都须要账号password登录才干够查看站点的内容,所以我们设计时须要考虑,用户进入站点仅仅能从一个我们设计的规范通道进入即通过注冊的账号password登录,其它方法都是非法的和不 ...

  6. java基础——transient

    今天在看struts1源代码的时候,发如今ActionForm中首先声明了两个transient类型的protected变量. 之前没有接触过该transient类型,所以就查了查. transien ...

  7. win10中让Visual Studio默认使用Administrator权限运行

    https://stackoverflow.com/questions/9654833/how-to-run-visual-studio-as-administrator-by-default Win ...

  8. HDFS 文件格式——SequenceFile RCFile

     HDFS块内行存储的例子  HDFS块内列存储的例子  HDFS块内RCFile方式存储的例子

  9. 【转】详述iOS国际化

    原文网址:http://www.cocoachina.com/ios/20151120/14258.html 在真正将国际化实践前,只知道通过NSLocalizedString方法将相应语言的字符串加 ...

  10. Oracle 数据库勒索病毒 RushQL 处理办法

    处理办法来自Oracle 官方: https://blogs.oracle.com/cnsupport_news/%E5%AF%B9%E6%95%B0%E6%8D%AE%E5%BA%93%E7%9A% ...