Python爬虫：HTTP协议、Requests库

HTTP协议：

HTTP（Hypertext Transfer Protocol）：即超文本传输协议。URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。

HTTP协议对资源的操作：

Requests库提供了HTTP所有的基本请求方式。官方介绍：http://www.python-requests.org/en/master

Requests库的6个主要方法：

Requests库的异常：

Requests库的两个重要对象：Request（请求）、Response（相应）。Request对象支持多种请求方法；Response对象包含服务器返回的所有信息，也包含请求的Request信息。

Response对象的属性：

其中，r.encoding指：如果header中不存在charset，则认为编码为ISO‐8859‐1。

r.raise_for_status()可以直接知道r.status_code是否等于200。

HTTP协议与Requests库对比：

爬取网页的通用代码框架：

try:     r = requests.get(url,timeout = 30)     r.raise_for_status()     # 如果状态不是200，引发HTTPError异常     r.encoding = r.apparent_encoding     return r.text except:     return '产生异常'

例如，获取PMCAFF首页的信息：

'     print(getHtmlText(url))

（

巨弘娱乐 juhongyulept.com
新贝娱乐 xinbeiyuLe.cn
吉美娱乐 jimeiyulept.com
无极娱乐 wujiyule88.cn
七彩娱乐 qicaiyulept.cn

Python爬虫：HTTP协议、Requests库的更多相关文章

python爬虫之一：requests库
目录安装requtests requests库的连接异常 HTTP协议 HTTP协议对资源的操作 requests库的7个主要方法 request方法 get方法网络爬虫引发的问题 robots协 ...
PYTHON 爬虫笔记三:Requests库的基本使用
知识点一:Requests的详解及其基本使用方法什么是requests库 Requests库是用Python编写的,基于urllib,采用Apache2 Licensed开源协议的HTTP库,相比u ...
Python爬虫的开始——requests库建立请求
接下来我将会用一段时间来更新python爬虫网络爬虫大体可以分为三个步骤. 首先建立请求,爬取所需元素: 其次解析爬取信息,剔除无效数据: 最后将爬取信息进行保存: 今天就先来讲讲第一步,请求库re ...
芝麻HTTP： Python爬虫利器之Requests库的用法
前言之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助.入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取.那么这一节来 ...
python爬虫#网络请求requests库
中文文档 http://docs.python-requests.org/zh_CN/latest/user/quickstart.html requests库虽然Python的标准库中 urlli ...
【python爬虫】用requests库模拟登陆人人网
说明:以前是selenium登陆取cookie的方法比较复杂,改用这个 """ 用requests库模拟登陆人人网 """ import r ...
网络爬虫入门：你的第一个爬虫项目（requests库）
0.采用requests库虽然urllib库应用也很广泛,而且作为Python自带的库无需安装,但是大部分的现在python爬虫都应用requests库来处理复杂的http请求.requests库语 ...
Python爬虫--- 1.1请求库的安装与使用
来说先说爬虫的原理:爬虫本质上是模拟人浏览信息的过程,只不过他通过计算机来达到快速抓取筛选信息的目的所以我们想要写一个爬虫,最基本的就是要将我们需要抓取信息的网页原原本本的抓取下来.这个时候就要用到请 ...
Python爬虫入门——使用requests爬取python岗位招聘数据
爬虫目的使用requests库和BeautifulSoup4库来爬取拉勾网Python相关岗位数据爬虫工具使用Requests库发送http请求,然后用BeautifulSoup库解析HTML文 ...
Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...

随机推荐

Maven学习笔记-03-Eclipse和Maven集成
本文使用 Eclipse 集成 Maven,并创一个基于 maven的web工程一环境版本信息本文使用的版本信息如下: Eclipse Version: Mars.1 Release (4.5. ...
CF797F Mice and Holes 贪心、栈维护DP
传送门首先\(\sum c\)有些大,考虑将其缩小降低难度考虑一个贪心:第一次所有老鼠都进入其左边第一个容量未满的洞(如果左边没有就进入右边第一个未满的洞),第二次所有老鼠都进入其右边第一个容量未 ...
【强化学习】python 实现 saras 例一
本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10146554.html 说明:将之前 q-learning 实现的例一,用 saras 重新 ...
Roslyn入门（一）-C＃语法分析
演示环境 Visual Studio 2017 .NET Compiler Platform SDK 简介今天,Visual Basic和C#编译器是黑盒子:输入文本然后输出字节,编译管道的中间阶段 ...
.NETCore_生成实体
先安装以下三个包,或者使用Nuget引用不要问我为什么,按哥说的做吧: Install-Package Microsoft.EntityFrameworkCore.SqlServer Install ...
普通程序员看k8s基于角色的访问控制（RBAC）
一.知识准备 ● 上一节描述了k8s的账户管理,本文描述基于角色的访问控制 ● 网上RBAC的文章非常多,具体概念大神们也解释得很详细,本文没有站在高屋建瓴的角度去描述RBAC,而是站在一个普通程序员 ...
linux系统最小化安装后的初始化脚本
作为运维人员,经常会初始化系统,系统在安装过程中基本都会选择最小化安装,这样安装好的系统里会缺少很多环境. 下面分享一个系统安装后的初始化脚本: #!/bin/bash #系统时最小化安装的,这里要安 ...
常见IP端口
21端口:21端口主要用于FTP(File Transfer Protocol,文件传输协议)服务. 23端口:23端口主要用于Telnet(远程登录)服务,是Internet上普遍采用的登录和仿真程 ...
在Java中执行Tomcat中startup.bat
问题:更改数据库时,需要重启Tomcat服务器,才能把更改后的数据加载到项目中.于是想每次更改数据库时,都调用Java方法,重启Tomcat 代码: Process process = Runtime ...
Junit4使用实验报告
一.题目简介 Junit4的使用及求和测试. 二.源码的github链接 https://github.com/bjing123/test-/blob/master/Arithmetic.txt ht ...

Python爬虫：HTTP协议、Requests库

Python爬虫：HTTP协议、Requests库的更多相关文章

随机推荐

热门专题