Python爬取百度贴吧数据

　　本渣除了工作外，在生活上还是有些爱好，有些东西，一旦染上，就无法自拔，无法上岸，从此走上一条不归路。花鸟鱼虫便是我坚持了数十年的爱好。

　　本渣还是需要上班，才能支持我的业余爱好。上班时间还是尽量访问外网，少做一些和工作不太相关的事。有段时间，像是中毒一样，经常想关注百度贴吧中牡丹鹦鹉，及玄凤鹦鹉的交易图。

　　于是就写出一下代码：

import requests

from lxml import etree

url = r"http://tieba.baidu.com/p/5197963751"

url = r"http://tieba.baidu.com/p/5195568368"

# url = r"http://tieba.baidu.com/p/5004763771"

keyword = "广州"

s = requests.session()

def findgz(pageindex):

    r = s.get("{1}?pn={0}".format(pageindex, url))

    # print(r.text.encode("utf-8"))

    htmlpage = etree.HTML(r.text)

    divlist = htmlpage.xpath(

        "//div[@class='d_post_content j_d_post_content  clearfix']")

    print("第{0}页".format(pageindex))

    for x in divlist:

        for y in x.xpath('text()'):

            if keyword in y:

                for z in x.xpath('text()'):

                    print(z.replace(' ', ''))

                else:

                    print('\n')

r = s.get(url)

tmphtml = etree.HTML(r.text)

maxpageindex = tmphtml.xpath("//a[text()='尾页']")[0].get("href").split("=")[-1]

print("总共{0}页".format(maxpageindex))

[findgz(x) for x in range(1, int(maxpageindex) + 1)]

　　输出如下：

总共8页

第1页

1.百度昵称：aiiye1234

2.交易物品：白脸黄脸

3.物品价格：400-1000

4.联系方式：扣扣822616382

5.地理位置：广州

6.其它备注：开始学吃了

7.物品图片：

Python爬取百度贴吧数据的更多相关文章

利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
手把手教你使用Python爬取西刺代理数据（下篇）
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
Python开发简单爬虫（二）---爬取百度百科页面数据
一.开发爬虫的步骤 1.确定目标抓取策略: 打开目标页面,通过右键审查元素确定网页的url格式.数据格式.和网页编码形式. ①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格 ...
Python——爬取百度百科关键词1000个相关网页
Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介网站爬虫由浅入深:慢慢来分析: 链接的URL分析: 数据格式: 爬虫基本架构模型: 本爬虫架构: 源代码: # codin ...
python爬取百度贴吧帖子
最近偶尔学下爬虫,放上第二个demo吧 #-*- coding: utf-8 -*- import urllib import urllib2 import re #处理页面标签类 class Too ...
爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数 ...
python爬取豆瓣电影信息数据
题外话+ 大家好啊,最近自己在做一个属于自己的博客网站(准备辞职回家养老了,明年再战)在家里琐事也很多, 加上自己一回到家就懒了(主要是家里冷啊! 广东十几度,老家几度,躲在被窝瑟瑟发抖,) 由于 ...
python 爬取百度url
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-29 18:38:23 # @Author : EnderZhou (z ...
假期学习【十一】Python爬取百度词条写入csv格式 python 2020.2.10
今天主要完成了根据爬取的txt文档,从百度分类从信息科学类爬取百度词条信息,并写入CSV格式文件. txt格式文件如图: 为自己爬取内容分词后的结果. 代码如下: import requests fr ...

随机推荐

（转）Javascript的DOM操作 - 性能优化
转载:https://my.oschina.net/blogshi/blog/198910 摘要: 想稍微系统的说说对于DOM的操作,把Javascript和jQuery常用操作DOM的内容归纳成思维 ...
ADO.NET中的五大对象
Connection connection 对象主要是开启程序和数据库之间的连接.没有利用连接对象将数据库打开,是无法从数据库中取到数据的.这个物件是ADO.NET的最底层,我们可以自己产生这个对象, ...
v9 频道页如果有下级栏目跳转到第一个栏目链接
{if $CATEGORYS[$catid]['child']==1} {php $firstarr = explode(',',$CATEGORYS[$catid]['arrchildid']);} ...
mysql GROUP_CONCAT获取分组的前几名
比如说要获取班级的前3名,oracle 可以用 over partition by 来做.mysql就可以用GROUP_CONCAT + GROUP BY + substring_index实现. ...
solr5.5索引mysql数据（新手总结）
一 solr5.5环境部署到Eclipse(luna版) solr部署参见:http://blog.csdn.net/csmnjk/article/details/64121765 二 Ik分词器设置 ...
Dockerfile命令详解（超全版本）
制作Dockerfile为Docker入门学习的第一步(当然,除了环境搭建). 本文收集.整理了官网关于制作Dockerfile的全部命令(除SHELL没整理,这个就不弄了),可帮助大家快速进入Doc ...
javascript对象转换，动态属性取值
$(document).ready(function(){ var exceptionMsg = '${exception.message }'; var exceptionstr = ''; //j ...
react系列从零开始-react介绍
react算是目前最火的js MVC框架了,写一个react系列的博客,顺便回忆一下react的基础知识,新入门前端的小白,可以持续关注,我会从零开始教大家用react开发一个完整的项目,也会涉及到w ...
关于Latex中插入Visio图片文字不显示的问题
经过探索,将Visio保存为pdf格式是最完美的解决方式,因为pdf文件保存了所有格式和字体信息. Visio输出pdf时要使其符合PDF/A标准.如果包含Visio的多余信息,就会在一些低版本Lat ...
setTimeout与setInterval参数之String
今天无意中给某网友解答了一些setTimeout的问题,发现一个有趣的东西. 以前我总认为setTimeout的第一个参数只能function,后面发现string也能执行.那问题来了,String做 ...

Python爬取百度贴吧数据

Python爬取百度贴吧数据的更多相关文章

随机推荐

热门专题