python-requests库的使用之爬取贴吧内容并保存在本地

以面向对象的程序设计方式，编写爬虫代码爬去‘李毅吧’所有页面的内容，也可以通过改变对象的参数来爬取其它贴吧页面的内容。

所用到的库为：requests

涉及知识点：python面向对象编程，字符串操作，文件操作，爬虫基本原理

程序代码如下：

import requests

class TiebaSpider:

    def __init__(self, tieba_name):

        self.tieba_name=tieba_name

        self.url_tmp='https://tieba.baidu.com/f?kw='+self.tieba_name+'&ie=utf-8&pn={}'

        self.headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134"}

    def get_url_list(self):  # 获取该贴吧所有的url地址并存放在列表中

        url_list=[]

        for i in range(1000):

            url_list.append(self.url_tmp.format(i+50))

        return url_list

    def parse_url(self,url):   # 解析url,获得响应的页面内容

        response=requests.get(url,headers=self.headers)

        return response.content.decode()   # 默认是utf-8解码

    def save_html(self,html_str,page_num):

        file_path='html/{}-第{}页.html'.format(self.tieba_name,page_num)

        with open(file_path,'w',encoding='utf-8') as f:  #  此处一定要加encoding=‘utf8'否则会报错，默认打开是以ASCII码方式，而解码是以utf8解码

            f.write(html_str)

    def run(self):

        url_list=self.get_url_list()

        for url in url_list:

            html_str=self.parse_url(url)

            page_num=url_list.index(url)+1

            self.save_html(html_str,page_num)

if __name__=='__main__':

    tiebaspider = TiebaSpider('李毅')

    tiebaspider.run()

爬取结果如下：

python-requests库的使用之爬取贴吧内容并保存在本地的更多相关文章

Python+Requests+Bs4（解析）爬取某诗词信息（数据分析二）
1.环境安装 - 需要将pip源设置为国内源,阿里源.豆瓣源.网易源等 - windows (1)打开文件资源管理器(文件夹地址栏中) (2)地址栏上面输入 %appdata% (3)在这里面新建一个 ...
Python+Requests+Re（正则）爬取某糗事百科图片（数据分析一）
1.博客目前在学习爬虫课程,使用正则表达式来爬取网页的图片信息 2.下面我们一起来回归下Python中的正则使用方式/方法 3.糗事百科图片爬取源码如下: import requestsimport ...
Python+Requests+Xpath（解析）爬取某站点简历图片（数据分析三）
1.环境安装 pip install lxml 2.解析原理使用通用爬虫爬取网页数据实例化etree对象,且将页面数据加载到该对象中使用xpath函数结合xpath表达式进行标签定位和指定数据提 ...
用thinkphp写的一个例子：抓取网站的内容并且保存到本地
我需要写这么一个例子,到电子课本网下载一本电子书. 电子课本网的电子书,是把书的每一页当成一个图片,然后一本书就是有很多张图片,我需要批量的进行下载图片操作. 下面是代码部分: public func ...
Python网页解析库：用requests-html爬取网页
Python网页解析库:用requests-html爬取网页 1. 开始 Python 中可以进行网页解析的库有很多,常见的有 BeautifulSoup 和 lxml 等.在网上玩爬虫的文章通常都是 ...
Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）
Python:requests库.BeautifulSoup4库的基本使用(实现简单的网络爬虫) 一.requests库的基本使用 requests是python语言编写的简单易用的HTTP库,使用起 ...
初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据
初识python 之爬虫:使用正则表达式爬取"古诗文"网页数据的兄弟篇. 详细代码如下: #!/user/bin env python # author:Simple-Sir ...
大概看了一天python request源码。写下python requests库发送 get,post请求大概过程。
python requests库发送请求时,比如get请求,大概过程. 一.发起get请求过程:调用requests.get(url,**kwargs)-->request('get', url ...
python requests库学习笔记（上）
尊重博客园原创精神,请勿转载! requests库官方使用手册地址:http://www.python-requests.org/en/master/:中文使用手册地址:http://cn.pytho ...

随机推荐

JQuery：选择器、动画、AJAX请求
选择器 1.事件编程与动画效果一个选择器可以在概念上理解为指针.借助与JQuery库中的选择器$,线程可以获取到界面元素的引用,从而可以调用 ready().click()方法把用户事件和动作方法关 ...
JAVA - 守护线程(Daemon Thread)
转载自:http://www.cnblogs.com/luochengor/archive/2011/08/11/2134818.html 在Java中有两类线程:用户线程 (User Thread) ...
IDEA00 IDEA知识点汇总
一.从头搭建IDEA开发环境 https://mp.weixin.qq.com/s/6jXHzkU8JfubhDsQJbwl8Q 1 下载最新版IDEA 1.1 官网下载安装 1.2 专业版激活 2 ...
配置yum源方法，以及失效时的处理
正常方法如下: step1: 备份原CentOS-Base.repo 文件 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-B ...
C#进阶系列——WebApi 异常处理解决方案（转）
出处:http://www.cnblogs.com/landeanfen/p/5363846.html 阅读目录一.使用异常筛选器捕获所有异常二.HttpResponseException自定义异 ...
git pull --rebase的使用
原文:http://www.cnblogs.com/kevingrace/p/5896706.html 使用下面的关系区别这两个操作:git pull = git fetch + git mergeg ...
FPGA时序约束和timequest timing analyzer
FPGA时序约束时钟约束 #************************************************************** # Create Clock #****** ...
从原理上理解Base64编码
开发者对Base64编码肯定很熟悉,是否对它有很清晰的认识就不一定了.实际上Base64已经简单到不能再简单了,如果对它的理解还是模棱两可实在不应该.大概介绍一下Base64的相关内容,花几分钟时间 ...
疯狂JAVA讲义---第十五章：输入输出（上）流的处理和文件
在Java中,把这些不同类型的输入.输出抽象为流(Stream),而其中输入或输出的数据称为数据流(Data Stream),用统一的接口来表示,从而使程序设计简单明了. 首先我要声明下:所谓的输入输 ...
Tomcat项目部署问题记录
Tomcat项目部署问题记录 1. -bash: ./startup.sh: Permission denied 问题: 新装tomcat后,执行启动命令会出现 -bash: ./startup.sh ...

python-requests库的使用之爬取贴吧内容并保存在本地

python-requests库的使用之爬取贴吧内容并保存在本地的更多相关文章

随机推荐

热门专题