使用scrapy框架爬取自己的博文（2）

　　之前写了一篇用scrapy框架爬取自己博文的博客，后来发现对于中文的处理一直有问题- -

　　显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u7684\u56fe\u7247 - huhuuu - \u535a\u5ba2\u56ed'] 而不是 python下爬某个网页的图片 - huhuuu - 博客园。这显然不是我们需要的结果。

　　现在如何把列表中的字符串转到字符串，显然不能直接用str! 那就遍历列表，把信息提取出来。

def change_word(s): #把表中的字符串转化到中文显示

    print s

    sum = 0

    for i in s[0]:

        sum += 1

    ss2 = ''

    count = 0

    for i in range(0,sum):

        ss2 += s[0][i]

    s = ss2

    print s

　　运行一下，似乎是可以的，但是发现有些字符还是没有转化到中文字符，查了下编译器的提示：

　　\u2014这个字符好像支持的不好，那就把这个字符除掉

　　一开始没搞明白字符的单位是什么，判断条件写成了，自然就没起到任何作用

       if (s[0][i] == '\\') and (s[0][i+1] == 'u'):

            if (s[0][i+2] == '') and (s[0][i+3] == '') and (s[0][i+4] == '') and (s[0][i+5] == ''):

　　原来在python中对中文字符与对英文字符都看做一个单位，所以：

        if (s[0][i] == u'\u2014'):

            continue

　　最后，可以正确的显示所以中文字符了。

　　完整的spider代码：

#!/usr/bin/env python

#coding=utf-8

from scrapy.contrib.spiders import CrawlSpider,Rule

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

from scrapy.selector import Selector

from dirbot.items import Website

from scrapy.selector import HtmlXPathSelector

import sys

import string

sys.stdout=open('output.txt','w') #将打印信息输出在相应的位置下

add = 0

def change_word(s): #把表中的字符串转化到中文显示

    print s

    sum = 0

    for i in s[0]:

        sum += 1

    ss2 = ''

    count = 0

    for i in range(0,sum):

        #对 /u2014处理

        if (s[0][i] == u'\u2014'):

            continue

        ss2 += s[0][i]

    s = ss2

    print s

class DmozSpider(CrawlSpider):

    name = "huhu"

    allowed_domains = ["cnblogs.com"]

    start_urls = [

        "http://www.cnblogs.com/huhuuu",

    ]

    rules = (

        # 提取匹配 huhuuu/default.html\?page\=([\w]+) 的链接并跟进链接(没有callback意味着follow默认为True)

        Rule(SgmlLinkExtractor(allow=('huhuuu/default.html\?page\=([\w]+)', ),)),

        # 提取匹配 'huhuuu/p/' 的链接并使用spider的parse_item方法进行分析

        Rule(SgmlLinkExtractor(allow=('huhuuu/p/', )), callback='parse_item'),

        Rule(SgmlLinkExtractor(allow=('huhuuu/archive/', )), callback='parse_item'), #以前的一些博客是archive形式的所以

    )

    def parse_item(self, response):

        global add #用于统计数量

        print  add

        add+=1

        sel = HtmlXPathSelector(response)

        items = []

        item = Website()

        temp = sel.xpath('/html/head/title/text()').extract()

        item['headTitle'] = temp#观察网页对应得html源码

        item['url'] = response

        #print temp

        print item['url']

        change_word(temp)

        items.append(item)

        return items

爬取的结果：

近四百篇博文

使用scrapy框架爬取自己的博文（2）的更多相关文章

使用scrapy框架爬取自己的博文
scrapy框架是个比较简单易用基于python的爬虫框架,http://scrapy-chs.readthedocs.org/zh_CN/latest/ 这个是不错的中文文档几个比较重要的部分: ...
使用scrapy框架爬取自己的博文（3）
既然如此,何不再抓一抓网页的文字内容呢? 谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图: 这样已经比较明显了,博客的正文内容主要在div 的class = cnblogs_ ...
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
基于python的scrapy框架爬取豆瓣电影及其可视化
1.Scrapy框架介绍主要介绍,spiders,engine,scheduler,downloader,Item pipeline scrapy常见命令如下: 对应在scrapy文件中有,自己增加 ...
scrapy框架爬取豆瓣读书（1）
1.scrapy框架 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试 ...
scrapy框架爬取糗妹妹网站妹子图分类的所有图片
爬取所有图片,一个页面的图片建一个文件夹.难点,图片中有不少.gif图片,需要重写下载规则, 创建scrapy项目 scrapy startproject qiumeimei 创建爬虫应用 cd qi ...

随机推荐

LD_PRELOAD的偷梁换柱之能
作者: net66 原创本文网址:http://www.cnblogs.com/net66/p/5609026.html 发布日期:2015 年 06月 22日一.LD_PRELOAD是什么 LD ...
自动化测试框架Taffy
Taffy Taffy是基于nosetests的自动化测试框架. Taffy主要用来测试后台服务(包括且不限于Http, Dubbo/hessian, Webservice, Socket等类型接口) ...
java之args[0]
java程序有一个主方法main方法,是这样的public static void main(String [] args)args[0]就是用命令行javac编译后java运行java程序时,传入的 ...
lucene4 Filter
摘要: 关于过滤方面的知识,也就是Filter,如果了解Solr的朋友们,肯定都会知道Solr里面fq这个参数,这个参数的作用其实就是lucene里面的过滤,对一些q参数查询的结果集,做过滤或者限制返 ...
CKPT,SCN
CKPT进程:完全检查点 ckpt进程的作用,触发全局检查点,通过DBWR将buffer_cache中的所有脏块写入数据文件中:由于DBWR的机制,因此lgwr会先写,然后dbwr后写. 当完全检查点 ...
DBWR进程
--查询dbwr进程号 select pname,spid from v$process where pname like 'DBW%'; PNAME SPID----- -------------- ...
opencv-learnopencv-Facial Landmark Detection
re: 1.facial-landmark-detection; https://www.learnopencv.com/facial-landmark-detection/ 2.landmark h ...
SYSTEM\sys\sys.c:33:7: error: expected '(' before 'void' __ASM void MSR_MSP(u32 addr)
在STM32中的sys.c文件编译报出这个错误时: __ASM void MSR_MSP(u32 addr){ MSR MSP, r0 //set Main Stack value BX r14} 如 ...
AngularJS的简单订阅发布模式例子
控制器之间的交互方式广播 broadcast, 发射 emit 事件类似于 js中的事件 , 可以自己定义事件向上传递直到 document 在AngularJs中向上传递直到 rootScop ...
python3 lambda函数
A=lambda x:x+1 def A(x):return x+1 冒号左边→想要传递的参数冒号右边→想要得到的数(可能带表达式)

使用scrapy框架爬取自己的博文（2）

使用scrapy框架爬取自己的博文（2）的更多相关文章

随机推荐

热门专题