Python爬虫实战（二）：爬百度贴吧

代码：

# _*_ coding:utf-8 _*_

import urllib

import urllib2

import re

class Tool:

    removingImg = re.compile('<img.*?>| {7}|')

    removingAddr = re.compile('<a.*?>|</a>')

    replaceLine = re.compile('<tr>|<div>|</div>|</p>')

    replaceTD = re.compile('<td>')

    replacePara = re.compile('<p.*?>')

    replaceBR = re.compile('<br><br>|<br>')

    removeExtraTag = re.compile('<.*?>')

    def replace(self,x):

        x = re.sub(self.removingImg,"",x)

        x = re.sub(self.removingAddr,"",x)

        x = re.sub(self.replaceLine,"\n",x)

        x = re.sub(self.replaceTD,"\t",x)

        x = re.sub(self.replacePara,"\n",x)

        x = re.sub(self.replaceBR,"\n",x)

        x = re.sub(self.removeExtraTag,"",x)

        return x.strip()

class BDTB:

    def __init__(self,baseUrl,seeLZ,floorTag):

        self.baseURL = baseUrl

        self.seeLZ = '?see_lz='+str(seeLZ)

        self.tool = Tool()

        self.file = None

        self.floor = 1

        self.defaultTitle = '百度贴吧'

        self.floorTag = floorTag

    def getPage(self,pageNum):

        try:

            url = self.baseURL + self.seeLZ + '&pn=' + str(pageNum)

            request = urllib2.Request(url)

            response = urllib2.urlopen(request)

            pageCode = response.read().decode('utf-8')

            #print pageCode

            return pageCode

        except urllib2.URLError,e:

            if hasattr(e,"reason"):

                print u"连接百度贴吧失败，错误原因",e.reason

                return None

    def getTitle(self,page):

         pattern = re.compile('<h3 class="core_title_txt.*?>(.*?)</h3>',re.S)

         result = re.search(pattern,page)

         if result:

             #print result.group(1)

             return result.group(1).strip()

         else:

             #print "Not match"

             return None

    def getPageNum(self,page):

         pattern = re.compile('<li class="l_reply_num.*?</span>.*?<span.*?>(.*?)</span>',re.S)

         result = re.search(pattern,page)

         if result:

             #print result.group(1)

             return result.group(1).strip()

         else:

             #print "Not match"

             return None

    def getContent(self,page):

        pattern = re.compile('<div id="post_content_.*?>(.*?)</div>',re.S)

        items = re.findall(pattern,page)

        contents = []

        for item in items:

            #print floor,u"楼-----------------------------------------\n"

            content = "\n" + self.tool.replace(item) + "\n"

            contents.append(content.encode('utf-8'))

            #floor += 1

        return contents

    def setFileTitle(self,title):

        if title is not None:

            self.file = open(title + ".txt","w+")

        else:

            self.file = open(self.defaultTitle + ".txt","w+")

    def writeData(self,contents):

        for item in contents:

            if self.floorTag == '':

                floorLine = "\n" + str(self.floor) + u"------------------------------------------------------\n"

                self.file.write(floorLine)

            self.file.write(item);

            self.floor += 1

    def start(self):

        indexPage = self.getPage(1)

        pageNum = self.getPageNum(indexPage)

        title = self.getTitle(indexPage)

        self.setFileTitle(title)

        if pageNum == None:

            print "URL已失效，请重试"

            return

        try:

            print "该帖子共有" + str(pageNum) + "页"

            for i in range(1,int(pageNum)+1):

                print "正在写入第" + str(i) + "页数据"

                page = self.getPage(i)

                contents = self.getContent(page)

                self.writeData(contents)

        except IOError,e:

            print "写入异常，原因" + e.message

        finally:

            print "写入任务完成"

print u"请输入帖子代号"

baseURL = "http://tieba.baidu.com/p/" + str(raw_input(u'http://tieba.baidu.com/p/'))

seeLZ = raw_input("是否只获取楼主发言，是输入1，否输入0\n")

floorTag = raw_input("是否写入楼层信息，是输入1，否输入0\n")

bdtb = BDTB(baseURL,seeLZ,floorTag)

bdtb.start()

#baseURL = 'http://tieba.baidu.com/p/3138733512'

#bdtb = BDTB(baseURL,1)

#page = bdtb.getPage(1)

#bdtb.getTitle()

#bdtb.getPageNum()

#bdtb.getContent(page)

Python爬虫实战（二）：爬百度贴吧的更多相关文章

Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
Python爬虫实战——反爬策略之模拟登录【CSDN】
在<Python爬虫实战-- Request对象之header伪装策略>中,我们就已经讲到:=="在header当中,我们经常会添加两个参数--cookie 和 User-Age ...
Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Python爬虫实战之爬取糗事百科段子【华为云技术分享】
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
芝麻HTTP:Python爬虫实战之爬取百度贴吧帖子
本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定首先,我们先观察一下百度贴吧的任意一个帖子. 比如:http:// ...
Python爬虫实战：爬取腾讯视频的评论
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 易某某 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
Python爬虫学习(二) ——————爬取前程无忧招聘信息并写入excel
作为一名Pythoner,相信大家对Python的就业前景或多或少会有一些关注.索性我们就写一个爬虫去获取一些我们需要的信息,今天我们要爬取的是前程无忧!说干就干!进入到前程无忧的官网,输入关键字&q ...

随机推荐

WCF中修改接口或方法名称而不影响客户端程序
本篇接着"从Web Service和Remoting Service引出WCF服务"中有关WCF的部分. 运行宿主应用程序. 运行Web客户端中的网页. 输入内容,点击按钮,能获取 ...
JavaScript进阶系列01,函数的声明，函数参数，函数闭包
本篇主要体验JavaScript函数的声明.函数参数以及函数闭包. □ 函数的声明 ※ 声明全局函数通常这样声明函数: function doSth() { alert("可以在任何时候调 ...
rest api上传和下载文件
rest api上传和下载文件 function FileToString(AFileName: string): string; var LMemoryStream: TMemoryStream; ...
#ifdef #else #endif 的用法
预处理就是在进行编译的第一遍词法扫描和语法分析之前所作的工作.说白了,就是对源文件进行编译前,先对预处理部分进行处理,然后对处理后的代码进行编译.这样做的好处是,经过处理后的代码,将会变的很精短. 关 ...
android 中theme.xml与style.xml的区别
from://http://liangoogle.iteye.com/blog/1848448 android 中theme.xml与style.xml的区别: 相同点: 两者的定义相同. <r ...
Codeforces 394D Physical Education and Buns 胡搞
题目链接:点击打开链接题意:给定n个数的序列(能够排序) 操作一次能够使得某个数++或--. 问最少操作几次使得序列变成一个等差序列输出: 第一行输出最少操作的次数第二行输出等差数列里的最小项 ...
Android之找回打包key密码的方法
昨天准备给自己的应用发布一个新版本,在apk打包时,发现之前的用的keystore密码忘了.蛋碎了一地,我把我所能想到的密码都试了一遍(注:我平常在各个门户网站注册基本上用的都是那几个字母和数字组合做 ...
详细解读Android中的搜索框（四）—— Searchable配置文件
<?xml version="1.0" encoding="utf-8"?> <searchable xmlns:android=" ...
JAVA之带转义字符的json字符串解析
Json数据: { "ret": "0", "Weathers": "[{\"date\":\"20 ...
Java&C#语法差别
Java C# 主类名与文件名必须一致可以不一致命名空间导入方式 import关键字 using关键字常量 final关键字 Const关键字基本数据类型 C#中有无符号数,Java没有 ...

Python爬虫实战（二）：爬百度贴吧

Python爬虫实战（二）：爬百度贴吧的更多相关文章

随机推荐

热门专题