Python爬虫的开始——requests库建立请求

接下来我将会用一段时间来更新python爬虫

网络爬虫大体可以分为三个步骤。

首先建立请求，爬取所需元素；

其次解析爬取信息，剔除无效数据；

最后将爬取信息进行保存；

今天就先来讲讲第一步，请求库requests

request库主要有七个常用函数，如下所示

而通过requests创建的数据类型为response

我们以爬取百度网站为例

import requests as r

t=r.get("https://www.baidu.com/")

print(type(t))

运行结果如下所示

<class 'requests.models.Response'>
[Finished in 1.3s]

那么作为请求对象，具有哪些属性呢？

爬取数据第一步要做的事便是确认是否连接成功

status_code()从功能角度考虑，算的上是一种判断函数，调用将会返还结果是否成功

如果返回结果为200，则代表连接成功，如果返回结果为404，则代表连接失败

import requests as r

t=r.get("https://www.baidu.com/")

print(type(t))

print(t.status_code)

如图所示返回结果为200，连接成功

那么下一步便是获得网址代码，不过在获得代码之前，还需要做一件事，得到响应内容的编码方式

不同的编码方式将会影响爬取结果

比如说百度网址：https://www.baidu.com/

采用编码方式为ISO-8859-1

获取编码方式为encoding

如下所示

import requests as r

t=r.get("https://www.baidu.com/")

print(type(t))

print(t.status_code)

print(t.encoding)

结果：

<class 'requests.models.Response'>
200
ISO-8859-1

当然有的网页采用 utf8，也有使用gbk，

不同的编码方式会影响我们获得的源码

也可以通过手动更改来改变获得的编码方式

比如：

import requests as r

t=r.get("https://www.baidu.com/")

print(t.encoding)

t.encoding="utf-8"

print(t.encoding)

结果

也可以试着备选码方式，apparent_encoding

之后我们就可以获得源代码了，我们需要将源代码以字符串类型输出保存

这就需要用到text

如下所示：

import requests as r

t=r.get("https://www.baidu.com/")

print(t.text)

结果：

这样我们就获得了对应网站的源码，完成了爬虫的第一步

Python爬虫的开始——requests库建立请求的更多相关文章

python爬虫之一：requests库
目录安装requtests requests库的连接异常 HTTP协议 HTTP协议对资源的操作 requests库的7个主要方法 request方法 get方法网络爬虫引发的问题 robots协 ...
PYTHON 爬虫笔记三:Requests库的基本使用
知识点一:Requests的详解及其基本使用方法什么是requests库 Requests库是用Python编写的,基于urllib,采用Apache2 Licensed开源协议的HTTP库,相比u ...
芝麻HTTP： Python爬虫利器之Requests库的用法
前言之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助.入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取.那么这一节来 ...
【python爬虫】用requests库模拟登陆人人网
说明:以前是selenium登陆取cookie的方法比较复杂,改用这个 """ 用requests库模拟登陆人人网 """ import r ...
网络爬虫入门：你的第一个爬虫项目（requests库）
0.采用requests库虽然urllib库应用也很广泛,而且作为Python自带的库无需安装,但是大部分的现在python爬虫都应用requests库来处理复杂的http请求.requests库语 ...
Python爬虫入门——使用requests爬取python岗位招聘数据
爬虫目的使用requests库和BeautifulSoup4库来爬取拉勾网Python相关岗位数据爬虫工具使用Requests库发送http请求,然后用BeautifulSoup库解析HTML文 ...
Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...
python爬虫之re正则表达式库
python爬虫之re正则表达式库正则表达式是用来简洁表达一组字符串的表达式. 编译:将符合正则表达式语法的字符串转换成正则表达式特征操作符说明实例 . 表示任何单个字符 [ ] 字符集,对单 ...
从0开始学爬虫9之requests库的学习之环境搭建
从0开始学爬虫9之requests库的学习之环境搭建 Requests库的环境搭建环境:python2.7.9版本参考文档:http://2.python-requests.org/zh_CN/l ...

随机推荐

5G：今天不谈技术，谈谈需求和应用
4G改变生活,5G改变社会.随着2019年5G手机的发布,5G时代已经拉开帷幕,无数嗅觉灵敏的投资人和创业者在研究5G行业的投资机会. 但是,市场研究侧重于技术细节与上游产业链设备投资居多,对于贴近消 ...
实验：用tcp请求http协议的接口
图示: 开启http服务,浏览器地址,访问测试页面查看http报文,复制出来用tcp工具请求测试 http 协议就是这样的,在tcp协议上面做了报文格式处理,连接发送数据后,就自动断开连接 jav ...
JS旋转和css旋转
js旋转 <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <styl ...
mysql数据迁徙详解
数据迁徙是每个后端都会遇到的工作之一,本文介绍了一些常见的数据迁徙方法与工具 mysqldump:数据结构不变的数据迁徙导出数据 mysqldump -u root -p DATABASE_NAME ...
【MySQL】MySQL数据类型
MySQL表数据存储大小说明 MySQL中规定,任何一条记录(数据表中每行数据)理论上的最大存储容量为 2^16 - 1 (Bytes) = 65535字节. MySQL数据类型思维导图 MySQL数 ...
Nginx专题（1）：Nginx之反向代理及配置
摘要:本文从Nginx的概念出发,分别从反向代理的概念.优势.配置代码3个方面介绍了Nginx的特性之一反向代理. 文章来源:宜信技术学院 & 宜信支付结算团队技术分享第一期-宜信支付结算八方 ...
盘点一下Creator星球上的开源工具包！
晓衡开始写公众号,最早是从上架 Cocos 商店的 pbkiller 插件开始的,到至今有2年2个月了.在这期间,又陆续在公众号上分享了多个实用工具包,在这里统一盘点一下,方便与大家交流学习. 一.u ...
C语言打印年历
摘要:使用C语言打印年历最初看到这个是觉得比较有意思,记得读书时候只写过月历,年历要复杂一些,现在水平提高了,来重新写一下吧. 看了网上的一些代码,大都比较繁琐,本文采用全新的思路完成年历打印. 整 ...
暑期集训20190725 加法(add)
[题目描述] 数学课,黑板上写着n个数字,记为A1到An,fateice会重复以下操作若干次: 1. 选择两个奇偶性相同的整数Ai和Aj, 将他们擦去 2. 将Ai+Aj写在黑板上问黑板上最终是否有 ...
[考试反思]1010csp-s模拟测试67：摸索
嗯...所谓RP守恒? 仍然延续着好一场烂一场的规律. 虽说我也想打破这个规律,但是并不想在考烂之后打破这个规律.(因为下一场要考好???) 我也不知道我现在是什么状态,相较于前一阶段有所提升(第一鸡 ...

Python爬虫的开始——requests库建立请求

Python爬虫的开始——requests库建立请求的更多相关文章

随机推荐

热门专题