简单的百度贴吧爬虫实现（urllib）

环境：ubuntu 16.04 LTS （X86-64），pycharm

python版本：3.5.1+

#生成的文件默认会保存到代码所在根目录

 1 import urllib.request,urllib.error,re

 class Tool:

     removeImg=re.compile('<img.*?| {7}|')

     removeAddr=re.compile('<a.*?|</a>')

     replaceLine=re.compile('<tr>|<div>|</div>|</p>')

     replaceTD=re.compile('<td>')

     replaceBR=re.compile('<br></br>|br')

     replaceExtra=re.compile('<.*?>')

     def replace(self,x):

         x=re.sub(self.removeImg,"",x)

         x=re.sub(self.removeAddr,"",x)

         x=re.sub(self.replaceLine,"\n",x)

         x=re.sub(self.replaceTD,"\t",x)

         x=re.sub(self.replaceBR,"\n",x)

         x=re.sub(self.replaceExtra,"",x)

         return x.strip()

 class BDTB:

     def __init__(self,baseUrl,see_lz):

         self.tool=Tool()

         self.baseurl=baseUrl+'?see_lz='+str(see_lz)+'&pn='

         self.defaultTitle=u'百度贴吧'

     def getPage(self,pagenum):

         try:

             url=self.baseurl+str(pagenum)

             request=urllib.request.Request(url)

             response=urllib.request.urlopen(request)

             content = response.read().decode('utf-8')

             return content

         except urllib.error.URLError as e:

             if hasattr(e,"reason"):

                 print(u'connect error reason:'+e.reason)

             if hasattr(e,'code'):

                 print(u'connect error,reason:'+e.code)

     def getPns(self,content):

         pattern = re.compile('<li class="l_reply_num".*?<span class="red">(.*?)</span>', re.S)

         pns = int((re.findall(pattern, content))[0])

         return pns

     def getTitle(self,content):

         pattern=re.compile('<h3 class="core_title_txt pull-left text-overflow  ".*?>(.*?)</h3>',re.S)

         return str((re.findall(pattern,content))[0])

     def getContent(self,content):

         pattern=re.compile('<ul class="p_author".*?<li class="d_name".*?target="_blank">(.*?)</a>.*?<div id="post_content_.*?>(.*?)</div>',re.S)

         items=re.findall(pattern,content)

         contents=[]

         for item in items:

             content='Username:   '+item[0]+'   content:   '+self.tool.replace(item[1])+'\n'

             contents.append(content)

         return contents

     def setFileTitle(self,Title):

         if Title is not None:

             self.file=open(Title+'.txt','w+')

         else:

             self.file=open(self.defaultTitle+'.txt','w+')

     def WriteData(self,contents):

         for content in contents:

             self.file.write(content)

     def start(self):

         Pns=self.getPns(self.getPage(1))

         self.setFileTitle(self.getTitle(self.getPage(1)))

         for i in range(Pns):

             print('Page Sum:'+str(Pns)+'\n')

             print('Now is Write page:'+str(i)+'\n')

             self.WriteData(self.getContent(self.getPage(i)))

         self.file.close()

 print('please enter discussion num:')

 url='http://tieba.baidu.com/p/'+str(input())

 see_lz=input('Whether just see lz(enter 0 or 1)')

 bdtb=BDTB(url,see_lz)

 bdtb.start()

运行结果：

简单的百度贴吧爬虫实现（urllib）的更多相关文章

c# WPF——完成一个简单的百度贴吧爬虫客户端
话不多说先上图爬取10页大概500个帖子大概10s,500页2w多个帖子大概2min,由此可见性能并不是特别好,但是也没有很差. 好了话不多说,我们来一步一步实现这么个简易的客户端. 1.创建项目 ...
[Python]网络爬虫（六）：一个简单的百度贴吧的小爬虫
转自:http://blog.csdn.net/pleasecallmewhy/article/details/8927832 # -*- coding: utf-8 -*- #----------- ...
Python之路：爬虫之urllib库的基本使用和高级使用
关于爬虫自己一直在看,所以时间太慢,这才第二更,有等不及的小伙伴可以慢慢的品尝了,在看下面的之前,建议先把上一章看一下.以下是关于python的Urllib的基础和高级用法. 1.如何扒下一个网站,用 ...
实用的开源百度云分享爬虫项目yunshare - 安装篇
今天开源了一个百度云网盘爬虫项目,地址是https://github.com/callmelanmao/yunshare. 百度云分享爬虫项目 github上有好几个这样的开源项目,但是都只提供了爬虫 ...
python 3.x 爬虫基础---Urllib详解
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解前言爬虫也了解了一段时间了希望在半个月的时间内 ...
Python爬虫之urllib模块2
Python爬虫之urllib模块2 本文来自网友投稿作者:PG-55,一个待毕业待就业的二流大学生. 看了一下上一节的反馈,有些同学认为这个没什么意义,也有的同学觉得太简单,关于Beautiful ...
（爬虫）urllib库
一.爬虫简介什么是爬虫?通俗来讲爬虫就是爬取网页数据的程序. 要了解爬虫,还需要了解HTTP协议和HTTPS协议:HTTP协议是超文本传输协议,是一种发布和接收HTML页面的传输协议:HTTPS协议 ...
C# 学习之路--百度网盘爬虫设计与实现（一）
百度网盘爬虫现在市面上出现了很多网盘搜索引擎,写这系列博文及爬虫程序的初衷: 更方面的查找资源学习C# 学习爬虫的设计与实现记录学习历程自我监督能力有限,如有不妥之处,还请各位看官点评.同在 ...
python爬虫之urllib库（二）
python爬虫之urllib库(二) urllib库超时设置网页长时间无法响应的,系统会判断网页超时,无法打开网页.对于爬虫而言,我们作为网页的访问者,不能一直等着服务器给我们返回错误信息,耗费 ...

随机推荐

判断List、Map、Set是否为空及效率比较
//如果object为null,则设置为defaultValue ObjectUtils.defaultIfNull(object, defaultValue); //判断集合是否为null Li ...
Quartz：ERROR threw an unhandled Exception
详细的错误信息如下: -- ::] ERROR org.quartz.core.JobRunShell: - Job group1.job1 threw an unhandled Exception: ...
【转】ffmpeg参数中文详细解释
感谢“大神”的无私奉献:http://blog.csdn.net/leixiaohua1020/article/details/15811977 a) 通用选项 -L license-h 帮助-fro ...
[POJ1222]EXTENDED LIGHTS OUT（高斯消元，异或方程组）
题目链接:http://poj.org/problem?id=1222 题意:开关是四连通的,每按一个就会翻转自己以及附近的四个格(假如有).问需要翻转几个,使他们都变成关. 把每一个灯看作一个未知量 ...
[原创]AM3352 + TPS65910 调试方法+调试记录
时间:20160912 一.电源时序排查 1.保证正确的上电时序,一般都会在CPU数据手册中提到.通常不会规定具体的上电先后时间的要求,多数情况下会要求前一个电平上升到90%满幅度之后才可以有下一个电 ...
ABAP 内表详解
声明:原创作品,转载时请注明文章来自SAP师太技术博客( 博/客/园www.cnblogs.com):www.cnblogs.com/jiangzhengjun,并以超链接形式标明文章原始出处,否则将 ...
SQL Server 小技巧【2】
--1.不要使用×来查询所有字段 SELECT * FROM DBO.tb1 --改为 SELECT FName,PWD,CreateDate FROM DBO.tb1 (NOLOCK) --2.查询 ...
C# 线程（六）：定时器
From : http://kb.cnblogs.com/page/42532/ Timer类:设置一个定时器,定时执行用户指定的函数. 定时器启动后,系统将自动建立一个新的线程,执行用户指定的函数. ...
CSS深入研究:display的恐怖故事解密(2) - table-cell(转)
http://www.cnblogs.com/StormSpirit/archive/2012/10/24/2736453.html 上集<CSS深入研究:display的恐怖故事解密(1) - ...
《FLASH CC 2015 CANVAS 中文教程》——1、导出canvas动画，文件结构浅析
注::如果你对 FLASH 这个软件操作不够熟悉,建议你可以先看看FLASH动画之类的书. :FLASH CC 在文中直接简称为CC. :以下所以文章中所说的快捷键如果你按了不起作用,请检查是否有其 ...

简单的百度贴吧爬虫实现（urllib）

简单的百度贴吧爬虫实现（urllib）的更多相关文章

随机推荐

热门专题