Python爬虫--抓取糗事百科段子

今天使用python爬虫实现了自动抓取糗事百科的段子，因为糗事百科不需要登录,抓取比较简单。程序每按一次回车输出一条段子，代码参考了 http://cuiqingcai.com/990.html 但该博主的代码似乎有些问题，我自己做了修改，运行成功,下面是代码内容：

 # -*- coding:utf-8 -*-

 __author__ = 'Jz'

 import urllib2

 import re

 #糗事百科爬虫类

 class QSBK:

     #初始化

     def __init__(self):

         self.pageIndex = 1

         self.user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64)'

         self.headers = {'User-Agent': self.user_agent}

         #joke的每一个元素是每一页的段子

         self.joke = []

         #判断是否继续运行

         self.enable = False

     def getPage(self, pageIndex):

         try:

             URL = 'http://www.qiushibaike.com/hot/page/' + str(pageIndex)

             request = urllib2.Request(url = URL, headers = self.headers)

             response = urllib2.urlopen(request)

             pageContent = response.read().decode('utf-8')

             return pageContent

         except urllib2.URLError, e:

             if hasattr(e, 'reason'):

                 print '段子抓取失败，失败原因：', e.reason

                 return None

     def getJokeList(self, pageIndex):

         pageContent = self.getPage(pageIndex)

         if not pageContent:

             print '段子获取失败...'

             return None

         #第三个组中的内容用于判断段子是否附带图片

         pattern = re.compile(r'<div.*?class="author">.*?<a.*?>.*?<img.*?/>\n(.*?)\n</a>.*?</div>.*?<div class="content">\n\n(.*?)\n<!--.*?-->.*?</div>' +

                          r'(.*?)class="stats">.*?<span.*?class="stats-vote"><i.*?class="number">(.*?)</i>'

                          , re.S)

         jokes = re.findall(pattern, pageContent)

         pageJokes = []

         #过滤带有图片的段子

         for joke in jokes:

             hasImg = re.search('img', joke[2])

             #joke[0]为发布人,joke[1]为段子内容,joke[3]为点赞数量

             if not hasImg:

                 pageJokes.append([joke[0].strip(), joke[1].strip(), joke[3].strip()])

         return pageJokes

     def loadPage(self):

         if self.enable == True:

             #若当前已看的页数少于两页，则加载新的一页

             if len(self.joke) < 2:

                 pageJokes = self.getJokeList(self.pageIndex)

                 if pageJokes:

                     self.joke.append(pageJokes)

                     self.pageIndex += 1

     #每输入一次回车，打印一条段子

     def getOneJoke(self, pageJokes, page):

         jokes = pageJokes

         for joke in jokes:

             userInput = raw_input('请输入回车键或Q/q: ')

             self.loadPage()

             if userInput == 'Q' or userInput == 'q':

                 self.enable = False

                 print '退出爬虫...'

                 return

             print u'段子内容:%s\n第%d页\t发布人:%s\t赞:%s' % (joke[1], page, joke[0], joke[2])

     def start(self):

         print '正在从糗事百科抓取段子，按回车键查看新段子，按Q/q退出...'

         self.enable = True

         self.loadPage()

         page = 0

         while self.enable:

             if len(self.joke) > 0:

                 pageJokes = self.joke[0]

                 page += 1

                 #删除已经读取过的段子页

                 del self.joke[0]

                 self.getOneJoke(pageJokes, page)

 spider = QSBK()

 spider.start()

注释已经附上，其中有几点需要注意的地方：

1.需要加上header验证进行伪装,否则无法抓取网页内容

2.正则表达式的书写,需要将内容提取出来以验证是否有附带图片(代码中已用红色标注)

3.getOneJoke函数中格式化输出段子时(已用红色标注),需要在字符串前加上u,否则会报如下错误:

Traceback (most recent call last):

  File "D:\coding_file\python_file\TestPython\src\Test\QSBK.py", line 84, in <module>

    spider.start()

  File "D:\coding_file\python_file\TestPython\src\Test\QSBK.py", line 81, in start

    self.getOneJoke(pageJokes, page)

  File "D:\coding_file\python_file\TestPython\src\Test\QSBK.py", line 68, in getOneJoke

    print '段子内容:%s\n第%d页\t发布人:%s\t赞:%s' % (joke[1], page, joke[0], joke[2])

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe7 in position 3: ordinal not in range(128)

这是因为Python默认编码方式为Unicode,所以joke[0]等也是Unicode编码,为了格式化输出,前面的字符串也需要转换成Unicode编码

Python爬虫--抓取糗事百科段子的更多相关文章

Python爬虫爬取糗事百科段子内容
参照网上的教程再做修改,抓取糗事百科段子(去除图片),详情见下面源码: #coding=utf-8#!/usr/bin/pythonimport urllibimport urllib2import ...
Python爬虫-爬取糗事百科段子
闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url http://www.qiushibaike.com/h ...
python学习（十六）写爬虫爬取糗事百科段子
原文链接:爬取糗事百科段子利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...
Python爬虫批量下载糗事百科段子，怀念的天王盖地虎，小鸡炖蘑菇...
欢迎添加华为云小助手微信(微信号:HWCloud002 或 HWCloud003),输入关键字"加群",加入华为云线上技术讨论群:输入关键字"最新活动",获取华 ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
芝麻HTTP：Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
python 爬虫实战1 爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 本篇目标抓取糗事百科热门段子过滤带有图片的段子实现每按一次回车显示一个段子的发布时间,发布人 ...

随机推荐

ceph存储安装配置
1.修改yum源: 1.安装yum源:sudo yum install -y yum-utils sudo yum-config-manager --add-repo https://dl.fedor ...
centos6.5系统python2.6升级到python3.6
1.安装必备的工具 wget:yum install wget gcc:yum install gcc zlib zlib-devel: yum install zlib zlib-devel -y ...
mysql 系列文章推荐
1. mysql日志详细解析 http://www.cnblogs.com/wangkongming/p/3684950.html 2. mysql 主从同步实验 http://pmg ...
linux:查看磁盘硬件信息hdparm,smartctl
smartctl 命令这个一个用于控制和监控支持smart技术的硬盘的命令.通常配合 -a 选项我们可以查看到比较详尽的硬盘信息(比如序列号.硬盘容量.已运行时间.硬盘健康状况等).用法如下: sm ...
Tomcat:解决Tomcat可以在eclipse启动，却无法显示默认页面的操作
解决Tomcat可以在eclipse启动,却无法显示默认页面的操作今天在eclipse中配置好tomcat后访问不到它的主页,但是能运行自己的项目,一直找不到原因,百度之后最后解决了这个问题,总结如 ...
深入理解JVM3
VM运行时数据区域 JVM执行Java程序的过程中,会使用到各种数据区域,这些区域有各自的用途.创建和销毁时间.根据<Java虚拟机规范(第二版)>的规定,JVM包括下列几个运行时数据区域 ...
C语言细节注意
前段时间用C语言写了个小的程序,也算是复习了下好久没有用的C语言.也是有好多的坑了,哈哈. 1.C语言的结构体结构体的命名最好能够做到规范.因为不同的编译环境下,不是很规范的命名有时候会导致莫名其 ...
spring与memcached整合[转]
1, 开始肯定是下载需要的文件了,这里就下载附件里的文件就好,我也是在网上down的,放这好找.然后我们安装一下Memcache服务器,找到解压的memcached-1.2.1-win32,启动cmd ...
LOJ 一本通一句话题解系列：
第一部分基础算法第 1 章贪心算法 1):「一本通 1.1 例 1」活动安排:按照结束时间排序,然后扫一遍就可以了. 2):「一本通 1.1 例 2」种树:首先要尽量的往区间重叠的部分种树,先按 ...
[POI2006]MET-Subway
Description 给出一棵N个结点的树,选择L条路径,覆盖这些路径上的结点,使得被覆盖到的结点数最多. Input 第一行两个正整数N.L(2 <= N <= 1,000,000, ...

Python爬虫--抓取糗事百科段子

Python爬虫--抓取糗事百科段子的更多相关文章

随机推荐

热门专题