Python爬虫实战（一）：爬糗事百科段子

代码：

# _*_ coding:utf-8 _*_

import urllib2

import re

from datetime import datetime

class QSBK:

    def __init__(self):

        self.pageIndex = 1

        self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

        self.headers = {'User-Agent':self.user_agent}

        self.stories = []

        self.enable = False

    def getPage(self,pageIndex):

        try:

            url = 'http://www.qiushibaike.com/hot/page'+str(pageIndex)

            request = urllib2.Request(url,headers = self.headers)

            response = urllib2.urlopen(request)

            pageCode = response.read().decode('utf-8')

            return pageCode

        except urllib2.URLError,e:

            if hasattr(e,'reason'):

                print u"QSBK connect Error,reason: ",e.reason

                return None

    def getPageItems(self,pageIndex):

        pageCode = self.getPage(pageIndex)

        if not pageCode:

            print "Page Loading Error..."

            return None

        pattern = re.compile('<div.*?author clearfix">.*?<a.*?<img.*?>(.*?)</a>.*?<a.*?<h2>(.*?)</h2>.*?</a>.*?<div.*?'+'content">(.*?)<!--(.*?)-->.*?</div>.*?<div class="stats.*?class="number">(.*?)</i>',re.S)

        items = re.findall(pattern,pageCode)

        pageStories = []

        for item in items:

            haveImg = re.search("img",item[0])

            if not haveImg:

                replaceBR = re.compile('<br/>')

                text = re.sub(replaceBR,"\n",item[2])

                pageStories.append([item[1].strip(),text.strip(),item[3].strip(),item[4].strip()])

        return pageStories

    def loadPage(self):

        if self.enable == True:

            if len(self.stories) < 2:

                pageStories = self.getPageItems(self.pageIndex)

                if pageStories:

                    self.stories.append(pageStories)

                    self.pageIndex += 1

    def getOneStory(self,pageStories,page):

         for story in pageStories:

             input = raw_input()

             self.loadPage()

             if input == 'Q':

                 self.enable = False

                 return

             print u"第%d页\t发布人：%s\t发布时间：%s\t赞：%s\n%s" %(page,story[0],datetime.fromtimestamp(int(story[2])),story[3],story[1])

    def start(self):

         print u"正在读取糗事百科，按回车查看新段子，Q退出"

         self.enable = True

         self.loadPage()

         nowPage = 0

         while self.enable:

             if len(self.stories)>0:

                 pageStories = self.stories[0]

                 nowPage += 1

                 del self.stories[0]

                 self.getOneStory(pageStories,nowPage)

spider = QSBK()

spider.start()

Python爬虫实战（一）：爬糗事百科段子的更多相关文章

Python爬虫实战：爬糗事百科的段子
一个偶然的机会接触了Python,感觉很好用,但是一直在看c++啥的,也没系统学习.用过之后也荒废了许久.之前想建个公众号自动爬糗事百科的段子,但是没能建起来,真是尴尬,代码上传的服务器上之后,不能正 ...
【Python爬虫实战】多线程爬虫---糗事百科段子爬取
多线程爬虫:即程序中的某些程序段并行执行,合理地设置多线程,可以让爬虫效率更高糗事百科段子普通爬虫和多线程爬虫分析该网址链接得出:https://www.qiushibaike.com/8hr/pag ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
[爬虫]用python的requests模块爬取糗事百科段子
虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更 ...
Python爬虫爬取糗事百科段子内容
参照网上的教程再做修改,抓取糗事百科段子(去除图片),详情见下面源码: #coding=utf-8#!/usr/bin/pythonimport urllibimport urllib2import ...
python学习（十六）写爬虫爬取糗事百科段子
原文链接:爬取糗事百科段子利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...
Python爬虫批量下载糗事百科段子，怀念的天王盖地虎，小鸡炖蘑菇...
欢迎添加华为云小助手微信(微信号:HWCloud002 或 HWCloud003),输入关键字"加群",加入华为云线上技术讨论群:输入关键字"最新活动",获取华 ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...

随机推荐

Echarts学习记录——如何去掉网格线及网格区域颜色
关键属性 splitLine和splitArea,可以设置相关的属性示例代码 <!DOCTYPE html> <html lang="en"> <h ...
java容器类---概述
1.容器类关系图虚线框表示接口. 实线框表示实体类. 粗线框表示最经常使用的实体类. 点线的箭头表示实现了这个接口. 实线箭头表示类能够制造箭头所指的那个类的对象. Java集合工具包位于Java. ...
Icon cache rebuilding with Delphi（Delphi 清除Windows 图标缓存源代码）
清除Windows图标缓存的代码: procedure RebuildIconCache; .... const sr_WindowMetrics='Control Panel\Desktop\Win ...
java链表知识点总结
下面是一个Link类定义的一部分.它包含了一些数据和下一个链结点的引用: ? 1 2 3 4 5 class Link { public int data; public int id ...
ASIHTTPRequest-断点续传需要原网站支持！
转:http://zyc-to.blog.163.com/blog/static/17152400201110221114526/ 从0.94版本开始,ASIHTTPRequest可以恢复中断的下载 ...
C#编程（二十八）----------泛型类的功能
泛型类的功能在创建泛型类时,还需要一些其他的C#关键字.例如,不能把null赋予泛型类型.此时,可以使用default关键字.如果泛型类型不需要object类的功能,但需要调用泛型类上的某些特定方法 ...
《OSPF和IS-IS详解》
<OSPF和IS-IS详解> 基本信息作者: (美)Jeff Doyle 译者: 孙余强出版社:人民邮电出版社 ISBN:9787115347886 上架时间:2014-4-25 出版 ...
记一个js中的map数据结构
<html><body> <script type="text/javascript">let arr =[{demo1:123,demo2:& ...
[转]小心PHP的类定义顺序与继承的问题
FROM : http://www.pakey.net/blog/php-class-shunxu.html 以下代码的运行环境均为PHP5.3.11先来看一段代码 <?php class A ...
Spring Test, JUnit, Mockito, Hamcrest 集成 Web 测试
关于Spring 3.2 1. Spring 3.2 及以上版本自动开启检测URL后缀,设置Response content-type功能, 如果不手动关闭这个功能,当url后缀与accept头不一致 ...

Python爬虫实战（一）：爬糗事百科段子

Python爬虫实战（一）：爬糗事百科段子的更多相关文章

随机推荐

热门专题