Python爬虫_百度贴吧

# 本爬虫为爬取百度贴吧并存储HTML

import requests

class TiebaSpider:

    def __init__(self, tieba_name):

        self.tieba_name = tieba_name

        self.url = "https://tieba.baidu.com/f?kw="+tieba_name+"&ie=utf-8&pn={}"

        self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36"}

    def get_url_list(self): #构造url列表

        url_list = [self.url.format(i*50) for i in range(1000)]

        return url_list

    def parse_url(self, url): #发送请求 获取响应

        res = requests.get(url, headers=self.headers)

        return res.content.decode()

    def save_html(self, html_str, page_num): #保存

        file_path = "{}-第{}页.html".format(self.tieba_name, page_num)

        with open(file_path, "w", encoding="utf-8") as f:

            f.write(html_str)

    def run(self):  # 实现主要逻辑

        # 1 构造url列表

        url_list = self.get_url_list()

        # 2 遍历 发送请求 获取响应

        for url in url_list:

            html_str = self.parse_url(url)

            # 3 保存

            page_num = url_list.index(url)+1

            self.save_html(html_str, page_num)

            print(url)

if __name__ == "__main__":

    tieba_spider = TiebaSpider("lol")

    tieba_spider.run()

Python爬虫_百度贴吧的更多相关文章

Python爬虫_百度贴吧（title、url、image_url）
本爬虫以百度贴吧为例,爬取某个贴吧的[所有发言]以及对应发言详情中的[图片链接] 涉及: request 发送请求获取响应 html 取消注释通过xpath提取数据数据保存思路: 由于各贴吧发言 ...
如何用Python爬虫实现百度图片自动下载？
Github:https://github.com/nnngu/LearningNotes 制作爬虫的步骤制作一个爬虫一般分以下几个步骤: 分析需求分析网页源代码,配合开发者工具编写正则表达式或 ...
python爬虫获取百度图片（没有精华，只为娱乐）
python3.7,爬虫技术,获取百度图片资源,msg为查询内容,cnt为查询的页数,大家快点来爬起来.注:现在只能爬取到百度的小图片,以后有大图片的方法,我会陆续发贴. #!/usr/bin/env ...
python爬虫_简单使用百度OCR解析验证码
百度技术文档首先要注册百度云账号: 在首页,找到图像识别,创建应用,选择相应的功能,创建安装接口模块: pip install baidu-aip 简单识别一: 简单图形验证码: 图片: from ...
利用Python爬虫实现百度网盘自动化添加资源
事情的起因是这样的,由于我想找几部经典电影欣赏欣赏,于是便向某老司机寻求资源(我备注了需要正规视频,绝对不是他想的那种资源),然后他丢给了我一个视频资源网站,说是比较有名的视频资源网站.我信以为真,便 ...
python爬虫_入门_翻页
写出来的爬虫,肯定不能只在一个页面爬,只要要爬几个页面,甚至一个网站,这时候就需要用到翻页了其实翻页很简单,还是这个页面http://bbs.fengniao.com/forum/10384633. ...
python爬虫_入门
本来觉得没什么可写的,因为网上这玩意一搜一大把,不过爬虫毕竟是python的一个大亮点,不说说感觉对不起这玩意基础点来说,python2写爬虫重点需要两个模块,urllib和urllib2,其实还有r ...
Python爬虫之百度API调用
调用百度API获取经纬度信息. import requests import json address = input('请输入地点:') par = {'address': address, 'ke ...
【转】Python爬虫_示例2
爬虫项目:爬取并筛选拉钩网职位信息自动提交简历一目标站点分析 #一:实验前准备: 浏览器用Chrome 用Ctrl+Shift+Delete清除浏览器缓存的Cookie 打开network准备 ...

随机推荐

Form表单的知识点汇总
分享学习到的Form知识点,希望给同样有所需要的朋友共同学习..愿我的分享,可以成为您的厚爱.. 简单的知识收到简单的回报,未来的努力造就优秀的自己... <!--<form> -- ...
Spring框架相关博文集
收藏一些干货博文. Spring 多数据源管理源码分析 Spring事务管理详解 Spring源码解析 Spring框架自学之路
OpenStack （glance 镜像服务）
glance介绍 glance 提供云虚拟机上的服务镜像(Image)功能,该模块可看成车间里的模具生产部门,其功能包括虚拟机镜像的查找.注册和检索等.该模具最基本的使用方式就是在为云虚拟机实例提供安 ...
5.DHCP新建作用域及添加地址保留（Windows2012）
1.新建作用域右键IPv4 点击新建作用域点击下一步命名,下一步填写子网,下一步在上一步已经预留了,直接点下一步即可. 设置租用期限,建议为3天,下一步. 下一步,配置DHCP选项配置默认 ...
从微信小程序到鸿蒙js开发【04】——list组件
目录: 1.可滚动区域 2.list + list-item 3.list + list-item-group + list-item 1.可滚动区域在许多场景中,页面会有一块区域是可滚动的,比如这 ...
SQL(replace)替换字段中指定的字符
语法:update 表名 set 字段名=REPLACE(字段名,'修改前的字符','修改后的字符') 例 Product商品表中Name 名字字段中描述中将'AAA' 修改成 'BBB' SQL语句 ...
Codeforces 1364C - Ehab and Prefix MEXs
题意:给1e5的数组a 保证 ai <= ai+1 ai<=i 求一个一样长的数组b 使得mex(b1,b2···bi) = ai QAQ:不知道为啥这1600分的题比赛时出不了啊啊 ...
P3381 [模板] 最小费用最大流
EK + dijkstra (2246ms) 开氧气(586ms) dijkstra的势可以处理负权 https://www.luogu.org/blog/28007/solution-p3381 ...
2019牛客暑期多校训练营（第四场）k题、j题
传送门 k题: 题意: 给你一串由数字构成的字符串,你从这个字符串中找子字符串使这个字符串是300的倍数题解: 这道题和第三场的B题极其相似首先可以把是三百的倍数分开,必须要是100和3的倍数是 ...
Chapter Zero 0.1.1 计算机硬件五大单元
计算机硬件的五大单元先从CPU说起,CPU的全称如下: 中央处理器(Central Processing Unit,CPU) CPU作为一个特定功能的芯片,内含微指令集, 主机的功能差异,主要参考C ...

Python爬虫_百度贴吧

Python爬虫_百度贴吧的更多相关文章

随机推荐

热门专题