写在前面 考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方.而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息.虽然网上有很多爬取百度贴吧的教程和例子,但是贴吧规则更新快,目的不一样,爬取的内容也不一样,所以就有了这个工具. 目的 爬取1000条帖子→判断是否是广告或者垃圾信息→分析语言情感→生成词云 一.分析 1.1 先查看贴吧的规则,果然有规律,每一页是50条帖子 1.2 帖子内容,也有规律,都在这个标签里面 1.3 判断内容就用百度AI的内容…