Python 网络爬虫与信息获取（一）—— requests 库的网络爬虫

1. 安装与测试

进入 cmd（以管理员权限），使用 pip 工具，pip install requests 进行安装；

基本用法：

>> import requests

>> r = requests.get('http://www.baidu.com')

                    # 访问百度主页

>> r.status_code

200

                    # 状态码，200 表示访问成功

>> r.encoding = 'utf-8'

                    # 修改编码

>> r.text

                    # 打印网页内容

2. requests 库的七个主要方法

request：构造一个请求，是构造以下各方法的基础方法；
- 后续的 6 个方法均需调用 request 方法；
get：获取 html 网页的主要方法，对应于 http 的 get；
- r = requests.get(url)
  - 构造一个向服务器请求资源的 Request 对象；
  - 返回一个包含服务器资源的 Response 对象；
head：获取 html 网页头信息，对应于 http 的 head；
post：向 html 网页提交 post 请求，对应于 http 的 post；
put：向 html 网页提交 put 请求，对应于 http 的 put；
patch：向 html 网页提交局部修改请求（patch，补丁，也就是修改，局部更新），对应于 http 的 patch；
delete：向 html 页面提交删除请求，对应于 http 的 delete；

4. Response 对象的属性

r.status_code
- r.status_code == requests.codes.ok，如果返回 True，则表示打开正常；
r.text：http 相应内容的字符串形式，
r.content：http 相应内容的二进制形式；
r.encoding：猜测的编码，从 headers 中的 charset 中获得，但并非所有的服务器都会对其相关资源的编码进行规定和要求；
- 如果 headers 中不存在 charset，则认为（猜测）其编码为ISO-8859-1
r.apparent_encoding：根据内容分析出的编码方式，备选编码；

>> r = requests.get('http://www.baidu.com')

>> r.encoding

'ISO-8859-1'

>> r.apparent_encoding

'utf-8'

>> r.encoding = r.apparent_encoding

5. 与其他库的结合

BeautifulSoup：做 html 页面的解析；

>> from bs4 import BeautifulSoup

>> r = requests.get(url)

>> BeautifulSoup(r.text).get_text()

Python 网络爬虫与信息获取（一）—— requests 库的网络爬虫的更多相关文章

爬虫1.1-基础知识+requests库
目录爬虫-基础知识+requests库 1. 状态返回码 2. URL各个字段解释 2. requests库 3. requests库爬虫的基本流程爬虫-基础知识+requests库关于html ...
Python爬虫：HTTP协议、Requests库（爬虫学习第一天）
HTTP协议: HTTP(Hypertext Transfer Protocol):即超文本传输协议.URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源. HTTP协议 ...
Python爬虫（二）：Requests库
所谓爬虫就是模拟客户端发送网络请求,获取网络响应,并按照一定的规则解析获取的数据并保存的程序.要说 Python 的爬虫必然绕不过 Requests 库. 1 简介对于 Requests 库,官方文 ...
python之爬虫（四）之 Requests库的基本使用
什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其 ...
Python爬虫学习==>第八章：Requests库详解
学习目的: request库比urllib库使用更加简洁,且更方便. 正式步骤 Step1:什么是requests requests是用Python语言编写,基于urllib,采用Apache2 Li ...
整理UWP中网络和设备信息获取的帮助类，需要的拿走。
网络(运营商信息,网络类型) public static class NetworkInfo { /// <summary> /// 网络是否可用 /// </summary> ...
Python爬虫：HTTP协议、Requests库
HTTP协议: HTTP(Hypertext Transfer Protocol):即超文本传输协议.URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源. HTTP协议 ...
python爬虫---从零开始（三）Requests库
1,什么是Requests库 Requests是用python语言编写,基于urllib,采用Apache2 Licensed 开源协议的HTTP库. 它比urllib更加方便,可以节约我们大量的工作 ...
爬虫入门【2】Requests库简介
发送请求使用Requests发送网络请求很简单 #首先要导入requests库 import requests #返回一个Response对象 r=requests.get('https://git ...

随机推荐

BZOJ2555: SubString（后缀自动机，LCT维护Parent树）
Description 懒得写背景了,给你一个字符串init,要求你支持两个操作 (1):在当前字符串的后面插入一个字符串 (2):询问字符串s在当前字符串中出现了几次?(作为连续子串) 你必须在线支 ...
Rotation--控件位置旋转
今天想要完成一个按钮的动画,也就是随着手势在屏幕上的滑动,让按钮图片跟着旋转.刚开始的思路是,先把图片旋转以后,在把这个图片设置为imagebutton的背景.不过,会发现这个图片经过处理以后一直变形 ...
Linux体系结构
linux内核结构: system call interface (SCI层) 为用户空间提供了一套标准的系统调用函数来访问linux内核. process management (PM层) 进程管理 ...
学习笔记：Vue——插槽
关于Vue插槽,只用过最简单的语法,现在完整地走一遍官方文档说明,并且探索更多用法. 01.如果组件中没有包含一个<slot>元素,则该组件起始标签和结束标签之间的任何内容都会被抛弃. 0 ...
.vsdc和.svf用于formal verification tools
svf:Setup Verification for Formality
BlobTracker
Blob分析介绍分类: CV相关2012-11-04 11:25 1929人阅读评论(5) 收藏举报 Blob翻译成中文,是“一滴”,“一抹”,“一团”,“弄脏”,“弄错”的意思.在计算机视觉中 ...
C# SocketAsyncEventArgs类
Namespace:System.Net.Sockets Assemblies:System.Net.Sockets.dll, System.dll, netstandard.dll (Represe ...
HDU 6217 BBP Formula (数学)
题目链接: HDU 7217 题意: 题目给你可以计算 \(π\) 的公式: \(\pi = \sum_{k=0}^{\infty}[\frac{1}{16^k}(\frac{4}{8k+1})-(\ ...
winform最大化后不遮挡任务栏
在窗体初始化后添加一句代码 this.MaximizedBounds = Screen.PrimaryScreen.WorkingArea;
具体解释。。设计模式5——DAO。。studying
设计模式5--DAO ★ 场景和问题在Java程序中,常常须要把数据持久化.也须要获取持久化的数据,可是在进行数据持久化的过程中面临诸多问题 (如:数据源不同.存储类型不同.供应商不同.訪问方式不同 ...

Python 网络爬虫与信息获取（一）—— requests 库的网络爬虫

1. 安装与测试

2. requests 库的七个主要方法

4. Response 对象的属性

5. 与其他库的结合

Python 网络爬虫与信息获取（一）—— requests 库的网络爬虫的更多相关文章

随机推荐

热门专题