Python爬虫-爬取百度贴吧帖子

这次主要学习了替换各种标签，规范格式的方法。依然参考博主崔庆才的博客。

1.获取url

某一帖子:https://tieba.baidu.com/p/3138733512?see_lz=1&pn=1

其中https://tieba.baidu.com/p/3138733512?为基础部分，剩余的为参数部分。

http:// 代表资源传输使用http协议

tieba.baidu.com 是百度的二级域名，指向百度贴吧的服务器。

/p/3138733512 是服务器某个资源，即这个帖子的地址定位符

see_lz和pn是该URL的两个参数，分别代表了只看楼主和帖子页码，等于1表示该条件为真

    def getPage(self, pagenum):

        try:

            url = self.baseurl + self.seelz + '&pn=' + str(pagenum)

            request = urllib2.Request(url)

            response = urllib2.urlopen(request)

            # print response.read()

            # print url

            return response.read().decode('utf-8')

        except urllib2.URLError, e:

            if hasattr(e, 'reason'):

                print 'wrong !',e.reason

                return None

2.获取标题

因为标题由<h3 class="core_title_txt...</h3>包围，所以利用正则表达式很容易获取。

def getTitle(self):

        page = self.getPage(1)

        pattern = re.compile('<h3 class="core_title_tx.*?>(.*?)</h3>', re.S)

        result = re.search(pattern, page)

        if result:

            print result.group(1)

        else:

            return None

3.获取帖子页数

如上图，利用正则表达式如下：

    def getPageNum(self):

        page = self.getPage(1)

        pattern = re.compile('<li class="l_reply_num.*?</span>.*?<span.*?>(.*?)</span>', re.S)

        result = re.search(pattern, page)

        if result:

            print result.group(1)

        else:

            return None

4.获取楼主正文内容

    def getContent(self):

        page = self.getPage(1)

        pattern = re.compile('<div id="post_content_.*?>(.*?)</div>', re.S)

        items = re.findall(pattern, page)

        for item in items:

            print self.tool.replace(item)

正文主要包括在<div id="post.....></div>，但是明显正文中穿插了各种换行符、链接、图片、段落符等。所以需要将这些符号删除或替换。

替换代码如下：

class Tool:

    removeImg = re.compile('<img.*?>| {7}|')   #去除图像和7位空格

    removeAddr = re.compile('<a.*?>|</a>')     #去除链接

    replaceLine = re.compile('<tr>|<div>|<div></p>')   #换行符替换成\n

    replaceTD = re.compile('<td>')  #制表符换位\t

    replacePara = re.compile('<p.*?>')  #段落符换位\n和两个空格

    replaceBR = re.compile('<br>|<br><br>')  #换行符或双换行符替换为\n

    removeExtraTag = re.compile('<.*?>')  #去掉其他符号

    def replace(self, x):

        x = re.sub(self.removeImg, "", x)

        x = re.sub(self.removeAddr, "", x)

        x = re.sub(self.replaceLine, '\n', x)

        x = re.sub(self.replaceTD, '\t', x)

        x = re.sub(self.replacePara, "\n  ", x)

        x = re.sub(self.replaceBR, '\n', x)

        x = re.sub(self.removeExtraTag, "", x)

        return x.strip()

5.整体代码及结果

# coding:utf-8

import urllib

import urllib2

import re

class Tool:

    removeImg = re.compile('<img.*?>| {7}|')

    removeAddr = re.compile('<a.*?>|</a>')

    replaceLine = re.compile('<tr>|<div>|<div></p>')

    replaceTD = re.compile('<td>')

    replacePara = re.compile('<p.*?>')

    replaceBR = re.compile('<br>|<br><br>')

    removeExtraTag = re.compile('<.*?>')

    def replace(self, x):

        x = re.sub(self.removeImg, "", x)

        x = re.sub(self.removeAddr, "", x)

        x = re.sub(self.replaceLine, '\n', x)

        x = re.sub(self.replaceTD, '\t', x)

        x = re.sub(self.replacePara, "\n  ", x)

        x = re.sub(self.replaceBR, '\n', x)

        x = re.sub(self.removeExtraTag, "", x)

        return x.strip()

class tieba:

    def __init__(self, baseurl, seelz):

        self.baseurl = baseurl

        self.seelz = '?see_lz=' + str(seelz)

        self.tool = Tool()

    def getPage(self, pagenum):

        try:

            url = self.baseurl + self.seelz + '&pn=' + str(pagenum)

            request = urllib2.Request(url)

            response = urllib2.urlopen(request)

            # print response.read()

            # print url

            return response.read().decode('utf-8')

        except urllib2.URLError, e:

            if hasattr(e, 'reason'):

                print 'wrong !',e.reason

                return None

    def getTitle(self):

        page = self.getPage(1)

        pattern = re.compile('<h3 class="core_title_tx.*?>(.*?)</h3>', re.S)

        result = re.search(pattern, page)

        if result:

            print result.group(1)

        else:

            return None

    def getPageNum(self):

        page = self.getPage(1)

        pattern = re.compile('<li class="l_reply_num.*?</span>.*?<span.*?>(.*?)</span>', re.S)

        result = re.search(pattern, page)

        if result:

            print result.group(1)

        else:

            return None

    def getContent(self):

        page = self.getPage(1)

        pattern = re.compile('<div id="post_content_.*?>(.*?)</div>', re.S)

        items = re.findall(pattern, page)

        for item in items:

            print self.tool.replace(item)

baseURL = 'https://tieba.baidu.com/p/3138733512'

bdtb = tieba(baseURL, 1)

# bdtb.getPage(1)

bdtb.getTitle()

bdtb.getPageNum()

bdtb.getContent()

Python爬虫-爬取百度贴吧帖子的更多相关文章

Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影在类型地区年代各个标签下电影的名字评分和图片连接以及电影连接首先我们先在mysql中建表 create table liubo4( id in ...
Python爬虫爬取百度贴吧的帖子
同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urlli ...
Python爬虫爬取贴吧的帖子内容
最近在看一个大神的博客,从他那里学会了很多关于python爬虫的知识,其实python如果想用在实际应用中,你需要了解许多,比如正则表达式.引入库.过滤字段等等,下面不多说,我下面的程序是爬取Ubun ...
python爬虫—爬取百度百科数据
爬虫框架:开发平台 centos6.7 根据慕课网爬虫教程编写代码片区百度百科url,标题,内容分为4个模块:html_downloader.py 下载器 html_outputer.py 爬取数 ...
Python爬虫爬取百度贴吧的图片
根据输入的贴吧地址,爬取想要该贴吧的图片,保存到本地文件夹,仅供参考: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urllib2i ...
Python爬虫爬取百度翻译之数据提取方法json
工具:Python 3.6.5.PyCharm开发工具.Windows 10 操作系统说明:本例为实现输入中文翻译为英文的小程序,适合Python爬虫的初学者一起学习,感兴趣的可以做英文翻译为中文的 ...
python --爬虫--爬取百度翻译
import requestsimport json class baidufanyi: def __init__(self, trans_str): self.lang_detect_url = ' ...

随机推荐

MT【4】坐标平移后齐次化
简答:通过坐标平移可以将A点移到原点,设BC:mx’+ny’=1,联立坐标变换后的椭圆方程和BC,将$\frac{y}{x}$看成斜率k,得到关于k的一元二次方程,由题意两根之积为-1,可得.
FFT/NTT总结+洛谷P3803 【模板】多项式乘法（FFT）（FFT/NTT）
前言众所周知,这两个东西都是用来算多项式乘法的. 对于这种常人思维难以理解的东西,就少些理解,多背板子吧! 因此只总结一下思路和代码,什么概念和推式子就靠巨佬们吧推荐自为风月马前卒巨佬的概念和定理 ...
LOJ #6270. 数据结构板子题 (离线+树状数组)
题意有 $n$ 个区间,第 $i$ 个区间是 $[l_i,r_i]$ ,它的长度是 $r_i-l_i$ . 有 $q$ 个询问,每个询问给定 $L,R,K$ ,询问被 \([ ...
[转载]C++的顺序点(sequence point)和副作用(side effect)
有关i=(++i)+(i++)这种东西的深入解释,不仅仅是简单粗暴undefined behavior. ==== 一.副作用(side effect) 表达式有两种功能:每个表达式都产生一个值( v ...
luogu4267 TamingtheHerd (dp)
设f[i][j]为让前i天发生j次暴动需要改变的最少的值则f[i][j]=min{f[k][j-1]+(x[k+1]!=0)+(x[k+2]!=1)+...+(x[i]!=(i-k-1))} $O( ...
activity window view 关系
1.Activity , Window和View的关系是什么? 跟踪Activity的源码就会发现:Activity.attch() -> PolicyManager -> Policy ...
c++11 线程
转自:http://www.justsoftwaresolutions.co.uk/threading/multithreading-in-c++0x-part-3.html 是个just的c++库. ...
Luogu 1314 【NOIP2011】聪明的质检员（二分）
Luogu 1314 [NOIP2011]聪明的质检员 (二分) Description 小 T 是一名质量监督员,最近负责检验一批矿产的质量.这批矿产共有n个矿石,从 1 到n逐一编号,每个矿石都有 ...
jdbc操作数据库（详细）
JDBC是由java编程语言编写的类及接口组成,同时它为程序开发人员提供了一组用于实现对数据库访问的JDBC API,并支持SQL语言.利用JDBC可以将JAVA代码连接到oracle.DB2.SQL ...
Harbor镜像清理
目录清理UI中的镜像清理镜像释放空间 docker镜像仓库中镜像的清理,一直是个比较麻烦的事情.尤其是在测试环境当中,每天都会有大量的构建.由此会产生大量的历史镜像,而这些镜像,大多数都没有用. ...

Python爬虫-爬取百度贴吧帖子

Python爬虫-爬取百度贴吧帖子的更多相关文章

随机推荐

热门专题