写在前面

考研在即，想多了解考研er的想法，就是去找学长学姐或者去网上搜索，贴吧就是一个好地方。而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息。虽然网上有很多爬取百度贴吧的教程和例子，但是贴吧规则更新快，目的不一样，爬取的内容也不一样，所以就有了这个工具。

目的

爬取1000条帖子→判断是否是广告或者垃圾信息→分析语言情感→生成词云

一、分析

1.1 先查看贴吧的规则，果然有规律，每一页是50条帖子

1.2 帖子内容，也有规律，都在这个标签里面

1.3 判断内容就用百度AI的内容审核，情感分析也用百度AI了，省事

1.4 词云可以先用jieba分词然后再用wordcloud生成，但是后来发现网上有现成的工具

二、爬取过程

2.1 首先解决的一个小问题就是让它自己计算一下每页是50条帖子，我输入1000条它应该去爬取那几个页面，就用这种数学计算就行

2.2爬取过程代码，爬取后就调用内容审核以及情感分析，然后写入文件

def gettbtz(tbname,tznum):  ####根据给出的贴吧和帖子数（50的整数倍）获得所有帖子

    n = -50

    tznum = int(tznum)  ###z这里是要根据贴吧的规则，每页显示50条帖子

    emotions = 0

    while (tznum > n):

        n = n + 50

        print("正在爬取前" + str(n) + "条帖子")

        url = "http://tieba.baidu.com/f?kw=" + tbname + "&ie=utf-8&pn=" + str(n)

        soup = BeautifulSoup(requests.get(url).text,'lxml')  ###爬取动作

        a = soup.find_all('div',class_='threadlist_abs threadlist_abs_onlyline')

        for a in a:  ###接下来以此判断文本是否合规，然后判断情感正向倾向指数，然后写入文件

            if BDAITEXT(a.text) == "合规":

                print("爬取到合规帖子,正在写入文件：" + a.text)

                with open("resaults.txt","a+",encoding='utf-8') as f:

                    f.write(str(a.text))  ###写入这里特意转换一下数据类型，避免后面发生文本编码错误

                try:

                    emotions = emotions + BDAIemotion(a.text)

                    print("当前累计情感指数：" + str(emotions))

                except:

                    print("情感分析出错，跳过")

            else:

                print("帖子不合规，跳过")

        time.sleep(10)  ###君子协议，10秒暂停

        f.close()

三、百度人工智能API调用

3.1 百度AK获取，就是要先到百度AI开发平台注册一个开发者账号，然后创建应用，获取应用id和密钥，然后得到这样一个调用的密钥

# client_id 为官网获取的AK， client_secret 为官网获取的SK

host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【应用ID】&client_secret=【SK】'

 response = requests.get(host)

 if response:

 print(response.json())

3.2 内容审核API调用

def BDAITEXT(text):  ####百度AI文本审核，返回合规或者不合规

    content = {"text": text}

    r = requests.post(BDAItexturl,content).text

    if r:

        rback = json.loads(r)

        return rback["conclusion"]

3.3 情感分析API调用

def BDAIemotion(text):  ####百度AI情感分析，返回一个数值

    content = {"text": text}

    content = json.dumps(content)

    r = requests.post(BDAIemotionurl,content).text

    if r:

        rback = json.loads(r)

        return rback['items'][0]['positive_prob']

四、词云生成

有很多在线工具，导入大段文本，然后根据需要进行文本的过滤、分词，然后设置颜色、样式就可以生成词云。

五、信息分析

看词云，结果不言而喻，提早地准备、丰富的经验、专业课、数学、政治、院校选择…………

从情感上来看，大多数情感指数偏向积极，说明对待考研还是需要一个积极的态度。

运行截图

待改进

1.应该多线程，速度太慢了

2.爬取了帖子，没有爬取评论

3.情感分析有很多出错

“闲言碎语留给市井小民，你只管优雅从容心怀远方”

用Python爬取了考研吧1000条帖子，原来他们都在讨论这些！的更多相关文章

Python——爬取百度百科关键词1000个相关网页
Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介网站爬虫由浅入深:慢慢来分析: 链接的URL分析: 数据格式: 爬虫基本架构模型: 本爬虫架构: 源代码: # codin ...
python 虾米停服了...用python爬取虾米最近播放的1000首歌
1. 虾米关服在这里插入图片描述用了5年多的音乐软件就这么说关就关了,确实让人心里不好受 ,虽然再去一个新的app里,让它们的算法熟悉你的喜好也不是很困难,可我还是习惯虾米的界面.虾米现在可以支持 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取人民币汇率中间价
python爬取人民币汇率中间价,从最权威的网站中国外汇交易中心. 首先找到相关网页,解析链接,这中间需要经验和耐心,在此不多说. 以人民币兑美元的汇率为例(CNY/USD),脚本详情如下: wind ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...
steam夏日促销悄然开始，用Python爬取排行榜上的游戏打折信息
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 不知不觉,一年一度如火如荼的steam夏日促销悄然开始了.每年通过大大小小 ...
python爬取花木兰豆瓣影评，并进行词云分析
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
Python爬取跑男的评论，看看大家都在看谁吧
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于菜J学Python,作者: J哥 Python爬取爬取腾讯视频弹幕视频讲解 http ...

随机推荐

2018-8-10-win10-uwp-调试软件启动
title author date CreateTime categories win10 uwp 调试软件启动 lindexi 2018-08-10 19:16:51 +0800 2018-03-0 ...
Vue的Router路由传参
一.文件结构二.vue.js 打开此链接 https://cdn.bootcss.com/vue/2.6.10/vue.js 复制粘贴页面的所有内容三.vue-router.js 打开此链接 h ...
2019-1-4-win10-uwp-win2d-CanvasVirtualControl-与-CanvasAnimatedControl
title author date CreateTime categories win10 uwp win2d CanvasVirtualControl 与 CanvasAnimatedControl ...
Python--day37--守护进程和几个常用的方法
1,p.daemon = True #设置子进程为守护进程 #守护进程会随着主进程的代码执行完毕而结束 #子进程 --> 守护进程 import time from multiprocessi ...
java 递归(Recursion)
现在要求输出一个给定目录中的全部文件的路径. 本程序肯定只能依靠递归的操作完成,因为在一个给定的路径下有可能还是文件夹,那么如果是文件夹的话则肯定要继续列出,重复判断. 递归:程序调用自身的编程技巧 ...
linux 使用 ioctl 参数
在看 scull 驱动的 ioctl 代码之前, 我们需要涉及的另一点是如何使用这个额外的参数. 如果它是一个整数, 就容易: 它可以直接使用. 如果它是一个指针, 但是, 必须小心些. 当用一个指针 ...
备战省赛组队训练赛第七场(UPC)
传送门日文题解:戳这里
2018-11-1-Windows-Community-Toolkit-3.0-新功能
title author date CreateTime categories Windows Community Toolkit 3.0 新功能 lindexi 2018-11-1 9:2:55 + ...
SPOJ - REPEATS Repeats (后缀数组）
A string s is called an (k,l)-repeat if s is obtained by concatenating k>=1 times some seed strin ...
Python程序执行顺序
#示例代码基于py3.6 一直对Python程序的执行顺序有些疑惑,例如python程序是顺序执行的,那怎么还有main函数的出现呢? 在查阅了资料后,参见这里后,算是有点明白了: 1.python程 ...

用Python爬取了考研吧1000条帖子，原来他们都在讨论这些！