使用scrapy框架爬取自己的博文

　　scrapy框架是个比较简单易用基于python的爬虫框架，http://scrapy-chs.readthedocs.org/zh_CN/latest/ 这个是不错的中文文档

　　几个比较重要的部分：

　　items.py：用来定义需要保存的变量，其中的变量用Field来定义，有点像python的字典

　　pipelines.py：用来将提取出来的Item进行处理，处理过程按自己需要进行定义

　　spiders：定义自己的爬虫

　　爬虫的类型也有好几种：

　　1）spider:最基本的爬虫，其他的爬虫一般是继承了该最基本的爬虫类，提供访问url，返回response的功能，会默认调用parse方法

　　2）CrawlSpider：继承spider的爬虫，实际使用比较多，设定rule规则进行网页的跟进与处理，注意点：编写爬虫的规则的时候避免使用parse名，因为这会覆盖继承的spider的的方法parse造成错误。其中比较重要的是对Rule的规则的编写，要对具体的网页的情况进行分析。

　　3）XMLFeedSpider 与 CSVFeedSpider

　　实际操作：

items.py下的：

from scrapy.item import Item, Field

class Website(Item):

    headTitle = Field()

    description = Field()

    url = Field()

spider.py下的：

# -*- coding:gb2312 -*-

from scrapy.contrib.spiders import CrawlSpider,Rule

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

from scrapy.selector import Selector

from dirbot.items import Website

import sys

import string

sys.stdout=open('output.txt','w') #将打印信息输出在相应的位置下

add = 0

class DmozSpider(CrawlSpider):

    name = "huhu"

    allowed_domains = ["cnblogs.com"]

    start_urls = [

        "http://www.cnblogs.com/huhuuu",

    ]

    rules = (

        # 提取匹配 huhuuu/default.html\?page\=([\w]+) 的链接并跟进链接(没有callback意味着follow默认为True)

        Rule(SgmlLinkExtractor(allow=('huhuuu/default.html\?page\=([\w]+)', ),)),

        # 提取匹配 'huhuuu/p/' 的链接并使用spider的parse_item方法进行分析

        Rule(SgmlLinkExtractor(allow=('huhuuu/p/', )), callback='parse_item'),

    )

    def parse_item(self, response):

        global add #用于统计博文的数量

        print  add

        add+=1

        sel = Selector(response)

        items = []

        item = Website()

        item['headTitle'] = sel.xpath('/html/head/title/text()').extract()#观察网页对应得html源码

        item['url'] = response

        print item

        items.append(item)

        return items

最后在相应的目录文件下运行scrapy crawl huhu

结果：

但是我的博文好歹有400篇左右，最后只搜出了100篇，这是什么情况

查了一些搜出来的网页地址，很多都是2013.10 到最近更新的博文情况，没道理啊，最后注意了老的博文的网址，原来老的博文地址的结构更新的博文地址的结构不同

现在的：http://www.cnblogs.com/huhuuu/p/3384978.html

老的：http://www.cnblogs.com/huhuuu/archive/2012/04/10/2441060.html

然后在rule里面加入老网页的规则，就可以把博客中没加密的博文都搜出来了

# -*- coding:gb2312 -*-

from scrapy.contrib.spiders import CrawlSpider,Rule

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

from scrapy.selector import Selector

from dirbot.items import Website

import sys

import string

sys.stdout=open('output.txt','w') #将打印信息输出在相应的位置下

add = 0

class DmozSpider(CrawlSpider):

    name = "huhu"

    allowed_domains = ["cnblogs.com"]

    start_urls = [

        "http://www.cnblogs.com/huhuuu",

    ]

    rules = (

        # 提取匹配 huhuuu/default.html\?page\=([\w]+) 的链接并跟进链接(没有callback意味着follow默认为True)

        Rule(SgmlLinkExtractor(allow=('huhuuu/default.html\?page\=([\w]+)', ),)),

        # 提取匹配 'huhuuu/p/' 的链接并使用spider的parse_item方法进行分析

        Rule(SgmlLinkExtractor(allow=('huhuuu/p/', )), callback='parse_item'),

        Rule(SgmlLinkExtractor(allow=('huhuuu/archive/', )), callback='parse_item'), #以前的一些博客是archive形式的所以

    )

    def parse_item(self, response):

        global add #用于统计博文的数量

        print  add

        add+=1

        sel = Selector(response)

        items = []

        item = Website()

        item['headTitle'] = sel.xpath('/html/head/title/text()').extract()#观察网页对应得html源码

        item['url'] = response

        print item

        items.append(item)

        return items

又做了一个爬取博客园首页博客的代码，其实只要修改Rule即可：

# -*- coding:gb2312 -*-

from scrapy.contrib.spiders import CrawlSpider,Rule

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

from scrapy.selector import Selector

from dirbot.items import Website

import sys

import string

sys.stdout=open('output.txt','w') #将打印信息输出在相应的位置下

add = 0

class DmozSpider(CrawlSpider):

    name = "huhu"

    allowed_domains = ["cnblogs.com"]

    start_urls = [

        "http://www.cnblogs.com/",

    ]

    rules = (

        Rule(SgmlLinkExtractor(allow=('sitehome/p/[0-9]+', ),)),

        Rule(SgmlLinkExtractor(allow=('[^\s]+/p/', )), callback='parse_item'),

    )

    def parse_item(self, response):

        global add #用于统计博文的数量

        print  add

        add+=1

        sel = Selector(response)

        items = []

        item = Website()

        item['headTitle'] = sel.xpath('/html/head/title/text()').extract()#观察网页对应得html源码

        item['url'] = response

        print item

        items.append(item)

        return items

参考：http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/spiders.html

使用scrapy框架爬取自己的博文的更多相关文章

使用scrapy框架爬取自己的博文（2）
之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ...
使用scrapy框架爬取自己的博文（3）
既然如此,何不再抓一抓网页的文字内容呢? 谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图: 这样已经比较明显了,博客的正文内容主要在div 的class = cnblogs_ ...
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
基于python的scrapy框架爬取豆瓣电影及其可视化
1.Scrapy框架介绍主要介绍,spiders,engine,scheduler,downloader,Item pipeline scrapy常见命令如下: 对应在scrapy文件中有,自己增加 ...
scrapy框架爬取豆瓣读书（1）
1.scrapy框架 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试 ...
scrapy框架爬取糗妹妹网站妹子图分类的所有图片
爬取所有图片,一个页面的图片建一个文件夹.难点,图片中有不少.gif图片,需要重写下载规则, 创建scrapy项目 scrapy startproject qiumeimei 创建爬虫应用 cd qi ...

随机推荐

zk请求和响应对
zk的请求和响应是通过id对应上的: 请求头(RequestHeader)和响应头(ReplyHeader)共用一个xid,它的本质是ClientCnxn类中的一个计数器. 1. 首先看客户端: Pa ...
网络协议栈学习（二）创建 socket
下面通过学习linux 1.2.13源码进一步理解socket通信机制.对该版本源码的学习主要参考<Linux内核网络栈源代码情景分析>(曹桂平编著). 要理解socket的本质,就要理 ...
css rem计算
先抛出一个问题:为什么要选择rem? px:像素是相对于显示器屏幕分辨率而言的相对长度单位.pc端使用px倒也无所谓,可是在移动端,因为手机分辨率种类颇多,不可能一个个去适配,这时px就显得非常无力, ...
玩转X-CTR100 l STM32F4 l TB6612直流电机调速控制
我造轮子,你造车,创客一起造起来!塔克创新资讯[塔克社区 www.xtark.cn ][塔克博客 www.cnblogs.com/xtark/ ] 本文介绍X-CTR100控制器的直流调速电机控制,X ...
【DevExpress v17.2新功能预告】DevExtreme TreeList
在即将到来的v17.2中,您可以查看到DevExtremeHTML5 TreeList小部件的这些新功能. 1. 递归选择模式 TreeList将包括一个新的递归选择模式,您只需一次点击即可选择或取消 ...
C++基础：什么是命名空间
命名空间是类的逻辑分组,它组织成一个层次结构——逻辑树.这个树的根是System.名字空间是为了防止名字污染在标准C++中引入的.它可以将其中定义的名字隐藏起来,不同的名字空间中可以有相同的名字而互不 ...
关于rimworld（边缘之地）
低缓的音乐广阔的原野丰富而不杂乱的地表完美的殖民拓荒世界. 各种随机地形,丰富的资源.林木与矿产.随机生成的大世界给人真实世界的感觉. 动态而和谐的画面,随风摇摆的植被,跳跃的兔子,以及 ...
关于LUN和卷的思考
LUN:logical unit number 是指硬件层分出的逻辑盘,OS仍然把这些逻辑盘看成是物理盘. 例如将一个1PB磁盘柜划分为100个相同大小的lun,那么每个lun的大小就是10TB,lu ...
Android输入法框架系统(下)
程序焦点获取事件导致输入法显示从上面可以知道程序获得焦点时,程序端会先间接的调用IMMS的startInput将焦点View绑定到输入法,然后会调用IMMS的windowGainFocus函数,这个 ...
shell 脚本实战笔记(2)--环境变量PATH的恩怨情仇
在linux环境下, 相信大家对环境变量PATH, 多多少少有所接触, 这边讲讲PATH的在linux的前世因缘. 先讲讲一个列子假如我们在为一个新的应用配置其PATH路径中时, 不小心忽略了原先 ...

使用scrapy框架爬取自己的博文

使用scrapy框架爬取自己的博文的更多相关文章

随机推荐

热门专题