【新手】python爬虫遍历贴吧用户

当前blog已不再更新，请移步新家：moozik.cn

想法是遍历学校贴吧的用户，获取用户的数据用来分析，因为是初学python，就一点一点的写，变量命名也不规范，见谅

系统：windows

版本：python 3.5

#获取河北大学工商学院吧1000页以内的用户

import urllib.request

import re

url='http://tieba.baidu.com/f/like/furank?kw=%BA%D3%B1%B1%B4%F3%D1%A7%B9%A4%C9%CC%D1%A7%D4%BA&pn='

webfile=open('tieba.txt','w')

for each in range(1000):

    url2=url+str(each+1)

    webdata=urllib.request.urlopen(url2).read()

    webdata = webdata.decode('gbk')

    userdata=re.findall('<table(.*?)</table>',webdata,re.S)

    webfile.write(userdata[1]+'\n')

    print(str(each+1)+'page done!')

webfile.close()

上面的代码遍历了贴吧排名页面的前1000页，截取了网页中需要分析的段落，并存储在文件中

import re

#打开tieba.txt用于读取

tiebadata=open('tieba.txt','r')

userlist=open('user.txt','w')

tmp=tiebadata.readline()

i=1

while not tmp=='':

    print(i)

    list=re.findall('<a.*?>(.*?)</a>.*?<td class="drl_item_title"><div class="bg_lv(\d+)"><span>.*?<td class="drl_item_exp"><span>(\d+)</span>',tmp)

    for each in list:

        userlist.write(each[0]+','+each[1]+','+each[2]+'\n')

    tmp=tiebadata.readline()

    i=i+1

userlist.close()

tiebadata.close()

上面读取了tieba.txt文件，每次读取一行，使用正则表达式截取了用户名，等级，经验值三个数据，保存在了user.txt

#获取所有用户的详细信息

import re

import urllib.request

import urllib.parse

userlist=open('user.txt','r')

userlist2=open('usermore.txt','w')

text=userlist.read()

userlist.close()

alluser=text.split('\n')

i=1

for each in alluser:

    user2=each.split(',')

    api='http://tieba.baidu.com/home/get/panel?ie=utf-8&un='

    web=urllib.request.urlopen(api+urllib.parse.quote(user2[0])).read()

    #使用web.decode('unicode_escape')解码unicode编码的汉字

    web=web.decode('unicode_escape')

    usertmp=re.findall('"id":(\d+).*?"sex":"(.*?)","tb_age":(.*?),"post_num":(.*?),',web)

    userlist2.write(each+','+str(','.join(usertmp[0]))+'\n')

    print(str(i)+user2[0])

    i=i+1

userlist2.close()

上面这段代码是有问题的，总是爆出一个错误，IndexError: list index out of range，显示写文件那一行出错，在pychrm中执行了几行就报错，在命令行中还执行的多一些，现在还是很费解，希望有了解的前辈解答一下。

上面这一段是读取user.txt，直接使用\n分割文本，制造了一个大列表，然后使用for循环，我觉得这里是不是按行读取会更好一些。

循环中，使用用户id组合url获取更多的用户数据，因为百度的接口获取的数据的文本不是明文，所以这里使用decode解码，之后依然是使用正则获取了用户的数字id，性别，吧龄，发帖数。之后print变量i用户在命令行中查看进度。

因为不是多线程的，程序的效率真的非常的低。

希望下次可以做得更好。

【新手】python爬虫遍历贴吧用户的更多相关文章

python爬虫（3）——用户和IP代理池、抓包分析、异步请求数据、腾讯视频评论爬虫
用户代理池用户代理池就是将不同的用户代理组建成为一个池子,随后随机调用. 作用:每次访问代表使用的浏览器不一样 import urllib.request import re import rand ...
使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解（新手必学）
为大家介绍下Python爬虫库BeautifulSoup遍历文档树并对标签进行操作的详细方法与函数下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
python爬虫之User-Agent用户信息
python爬虫之User-Agent用户信息爬虫是自动的爬取网站信息,实质上我们也只是一段代码,并不是真正的浏览器用户,加上User-Agent(用户代理,简称UA)信息,只是让我们伪装成一个浏览 ...
Python爬虫笔记【一】模拟用户访问之设置请求头（1）
学习的课本为<python网络数据采集>,大部分代码来此此书. 网络爬虫爬取数据首先就是要有爬取的权限,没有爬取的权限再好的代码也不能运行.所以首先要伪装自己的爬虫,让爬虫不像爬虫而是像人 ...
适合新手练习的Python项目有哪些？Python爬虫用什么框架比较好？
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. Python爬虫一般用什么框架比较好?一般来讲,只有在遇到比较大型的需求时 ...
python爬虫基础要学什么，有哪些适合新手的书籍与教程？
一,爬虫基础: 首先我们应该了解爬虫是个什么东西,而不是直接去学习带有代码的内容,新手小白应该花一个小时去了解爬虫是什么,再去学习带有代码的知识,这样所带来的收获是一定比你直接去学习代码内容要多很多很 ...
python 爬虫新手入门教程
python 爬虫新手教程一.什么是爬虫爬虫就是把一个网站里的内容读取下来这里我们就要学习一个知识我们看到的网页是有一种叫HTML的语言编写的他可以给文字显示不同的样式如:<p> ...
Python爬虫beautifulsoup4常用的解析方法总结（新手必看）
今天小编就为大家分享一篇关于Python爬虫beautifulsoup4常用的解析方法总结,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧摘要如何用beau ...

随机推荐

19:A*B问题
总时间限制: 1000ms 内存限制: 65536kB 描述输入两个正整数A和B,求A*B. 输入一行,包含两个正整数A和B,中间用单个空格隔开.1 <= A,B <= 50000 ...
安装R语言扩展包vegan
这周的作业我开始得好迟啊...然而还是要努力做啊... ××××××××××××××我是萌萌哒分割线×××××××××××××××××××××××××××××××××××× 首先,百度进入官方页面,看 ...
一个百万数量级的mysql实例
1.想做数据库调优的学习首先就要有一个较大数据集合的实例,在网上找了很久都没有找到具体的实例,后来在书中看到了employees_db字样,发现 mysql官方提供了一个做测试的较大的数据集,这正是我 ...
hibrenate @ManyToOne(fetch = FetchType.EAGER) 和 lazy 区别
项目中在spring定时器中定时扫描订单想修改订单详细和会员信息时老是报错,说no session...但是在正常的后台操作action中又能用. 对hibernate一直不是很熟悉,只知道用. 如果 ...
用Unity代码通过Xml配置生成GameObject之——前两天掉的坑
1. Resources.Load(path),path不是绝对路径,而是相对"Resources/"的相对路径!如: 要想Instantiate则代码应该如下: string m ...
Asp.net Web.Config - 配置元素 trace
一.trace的元素的属性属性说明 enabled 是否启用应用程序跟踪.为了使用 Trace.axd 查看器,必须启用跟踪.默认情况下,Trace.axd 查看器被添加到httpHandlers ...
Win10/UWP开发—使用Cortana语音与App后台Service交互
上篇文章中我们介绍了使用Cortana调用前台App,不熟悉的移步到:Win10/UWP开发—使用Cortana语音指令与App的前台交互,这篇我们讲讲如何使用Cortana调用App的后台任务,相比 ...
小技巧：addobject: 和 addobjectsFromArray 的区别
NSArray *array1 = [NSArray alloc]init]; NSArray *array2 = [NSArray alloc]init]; [array1 addobject: a ...
用ajax提交form表单及乱码问题
要求 1. form里是习题和选择的答案包含内容较多,直接用ajax获取页面元素较多,麻烦. 2. 也不能直接用form提交,form提交后会跳转页面,如果出错想在本页面获取错误信息(ajax提交)且 ...
C++类成员布局
在C++中对象的内存布局与类成员声明的顺序一致,静态成员放在数据区(Data Section)而非对象内存中,若多个类静态成员名称相同,C++则按照name mangling技术进行重命名保证名称的唯 ...

【新手】python爬虫遍历贴吧用户

【新手】python爬虫遍历贴吧用户的更多相关文章

随机推荐

热门专题