python的爬虫

requests库的安装

https://blog.csdn.net/xiaokuang5020/article/details/80580631

Response对象属性

属性　　　　　　　　　　　　　　　　　　　　　　　　　　说明

r.status_code　　　　　　　　　　　　　　HTTP请求的返回状态，200表示连接成功，404表示失败

r.text　　　　　　　　　　　　　　　　　　HTTP响应内容的字符串形式，即，url对应的页面内容

r.encoding　　　　　　　　　　　　　　　从HTTP Header中猜测的响应内容编码方式

r.apparent_encoding 　　　　　　　从内容中分析出的响应内容编码方式(备选编码方式)

r.content　　　　　　　　　　　　　　　　HTTP响应内容的二进制形式

Requests库的7个主要方法

方法　　　　　　　　　　　　　　　　　　　　　　　　　　说明

requests.request( )　　　　　　　　　　　　　　　　　　构造一个请求,支撑以下各方法的基础方法

requests.get() 　　　　　　　　　　　　获取HTML网页的主要方法,对应于HTTP的GET

requests.head() 　　　　　　　　　　　　　　　　　　　获取HTML网页头信息的方法，对应于HTTP的HEAD

requests.post( )　　　　　　　　　　　　　　　　　　　向HTML网页提交POST请求的方法,对应于HTTP的POST　　　　　　　　　　　　　　

requests.put( )　　　　　　　　　　　　　　　　　　　　向HTML网页提交PUT请求的方法,对应于HTTP的PUT

requests. patch()　　　　　　　　　　　　　　　　　　　向HTML网页提交局部修改请求,对应于HTTP的PATCH

requests.delete( )　　　　　　　　　　　　　　　　　　　向HTML页面提交删除请求,对应于HTTP的DELETE

PS:

HTTP协议

HTTP：Hypertext　　Transfer 　　Protocol , 超文本传输协议

HTTP是一个基于"请求与响应"模式的，无状态的应用层协议

HTTP协议采用URL作为定位网络资源的标识，URL格式如下：

　　　　　　　　http://host[:port][path]

　　　　　host:合法的Internet主机域名或IP地址

　　　　　port:端口号，缺省端口为80

　　　　　path:请求资源的路径

HTTP URL实例：

　　　　http://www.baidu.com

　　　　http://220.181.111.188/duty

HTTP URL的理解

　　URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源

HTTP协议对资源的操作

方法　　　　　　　　　　　　　　　　说明

GET　　　　　　　　请求获取URL位置的资源

HEAD　　　　　　　请求获取URL位置资源的响应消息报告，即获得该资源的头部信息

POST　　　　　　请求向URL位置的资源后附加新的数据

PUT　　　　　　　请求向URL位置存储一个资源，覆盖原URL位置的资源

PATCH　　　　　　请求局部更新URL位置的资源，即改变该处资源的部分内容

DELETE 　　　　　请求删除URL位置存储的资源

PATCH和PUT的区别

PATCH 仅向URL提交局部更新的要求

PUT必须将所有资源更新

PATCH的最主要好处：节省网络带宽

Requests库的异常

异常　　　　　　　　　　　　　　　　　　　　　　　　　　　　说明

requests.ConnectionError　　　　　　　　　　　　　　　　网络连接错误异常，如DNS查询失败，拒绝连接等

requests.HTTPError　　　　　　　　　　　　　　　　　　 HTTP错误异常

requests.URLRequired　　　　　　　　　　　　　　　　　 URL缺失异常

requests.TooManyRedirects　　　　　　　　　　　　　　　超过最大重定向次数，产生重定向异常

requests.ConnectTimeout　　　　　　　　　　　　　　　　

requests.Timeout　　　　　　　　　　　　　　　　　　

1. request.get()

requests.get( url , params = None , ** Kwargs)

url : 拟获取页面的url链接

params : url中的额外参数，字典或字节流格式，可选

**Kwargs : 12个控制访问的参数

2.requests.request(method , url , **kwargs)

method:请求方式，对应get/put/post等7种

url　　　拟获取页面的url链接

**kwargs 控制访问的参数，共12个

method :请求方式

　　r = requests.request('GET' ， url , **kwargs)

　　r = requests.request('HEAD' ， url , **kwargs)

　　r = requests.request('POST' ， url , **kwargs)

　　r = requests.request('PUT' ， url , **kwargs)

　　r = requests.request('PATCH' ， url , **kwargs)

　　r = requests.request('DELETE' ， url , **kwargs)

　　r = requests.request('OPTIONS' ， url , **kwargs)

**kwargs :控制访问的参数，均为可选项

　　params : 字典或字节排列，作为参数增加到url中

　　data 字典.字节序列或文件对象，作为Request的内容

　　json JSON格式的数据，作为Request的内容

　　headers 字典。HTTP定制头

　　cookies 字典或CookieJar , Request中的cookie

　　auth 元组，支持HTTP认证功能

　　files 字典类型，传输文件

　　timeout 设定超时时间，秒为单位

　　proxies 字典类型，设定访问代理服务器，可以增加登录认证

　　allow_redirects True/False ,默认为True , 重定向开关

　　stream True/False , 默认为True , 获取内容立即下载开关

　　verify True/False, 默认为True, 认证SSL证书开关

　　cert 本地SSL证书路径

3.requests.head(url , ** kwargs)

url　　　拟获取页面的url链接

**kwargs 控制访问的参数，共12个

4.requests.post(url , data = None , json = None , **kwargs )

url　　　拟获取页面的url链接

data 字典.字节序列或文件 , Request的内容

json JSON格式的数据，Request的内容

**kwargs 控制访问的参数，共12个

5.requests.put(url , data=None , ** kwargs)

url　　　拟获取页面的url链接

data 字典.字节序列或文件 , Request的内容

**kwargs 控制访问的参数，共12个

6.requests.patch(url , data=None , ** kwargs)

url　　　拟获取页面的url链接

data 字典.字节序列或文件 , Request的内容

**kwargs 控制访问的参数，共12个

7..requests.delete(url , ** kwargs)

url　　　拟获取页面的url链接

**kwargs 控制访问的参数，共12个

python的爬虫的更多相关文章

Python简单爬虫入门三
我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...
Ubuntu下配置python完成爬虫任务（笔记一）
Ubuntu下配置python完成爬虫任务(笔记一) 目标: 作为一个.NET汪,是时候去学习一下Linux下的操作了.为此选择了python来边学习Linux,边学python,熟能生巧嘛. 前期目 ...
Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们Bea ...
[Python] 网络爬虫和正则表达式学习总结
以前在学校做科研都是直接利用网上共享的一些数据,就像我们经常说的dataset.beachmark等等.但是,对于实际的工业需求来说,爬取网络的数据是必须的并且是首要的.最近在国内一家互联网公司实习, ...
python简易爬虫来实现自动图片下载
菜鸟新人刚刚入住博客园,先发个之前写的简易爬虫的实现吧,水平有限请轻喷. 估计利用python实现爬虫的程序网上已经有太多了,不过新人用来练手学习python确实是个不错的选择.本人借鉴网上的部分实现 ...
GJM : Python简单爬虫入门（二） [转载]
感谢您的阅读.喜欢的.有用的就请大哥大嫂们高抬贵手"推荐一下"吧!你的精神支持是博主强大的写作动力以及转载收藏动力.欢迎转载! 版权声明:本文原创发表于 [请点击连接前往] ,未经 ...
Python分布式爬虫原理
转载 permike 原文 Python分布式爬虫原理首先,我们先来看看,如果是人正常的行为,是如何获取网页内容的. (1)打开浏览器,输入URL,打开源网页 (2)选取我们想要的内容,包括标题,作 ...
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
关于Python网络爬虫实战笔记③
Python网络爬虫实战笔记③如何下载韩寒博客文章 Python网络爬虫实战笔记③如何下载韩寒博客文章 target:下载全部的文章 1. 博客列表页面规则也就是, http://blog.sina ...
关于Python网络爬虫实战笔记①
python网络爬虫项目实战笔记①如何下载韩寒的博客文章 python网络爬虫项目实战笔记①如何下载韩寒的博客文章 1. 打开韩寒博客列表页面 http://blog.sina.com.cn/s/ar ...

随机推荐

[Objective-C语言教程]循环语句（9）
当需要多次执行同一代码块时,可以使用循环来解决. 通常,语句按顺序执行:首先执行函数中的第一个语句,然后执行第二个语句,依此类推. 编程语言提供各种控制结构,允许更复杂的执行路径.循环语句可用于多次执 ...
redis 3.0 集群__监控警报工具(sentinel)
参考文档 http://redis.readthedocs.org/en/latest/topic/sentinel.html 因为目前还处于开发阶段,就先不研究了,待续
ionic 学习一
ionic 依赖angular.在学之前,我对angular进行了一下入门. 最近在看ionic,想做一些笔记,所以,写下这个随笔,有什么不对的请多多指教,刚开始学,后面还会学Apache Cordo ...
ubuntu下面的某些软件安装
1. python 下面的mysql驱动:不是在pip里面安装,执行下面命令 apt-get install python-mysqldb
解决myeclipse打开.form文件报错
症状: 打开AutoEKPMainFrm.form文件的时候出现如下问题:
高阶篇：4.1.1）QFDI（客户需求转换为设计要求）
本章目的:明确QFDI的作用:收集客户需求(Customer Needs),转换为设计要求(Design Feature).并介绍其制作方法. 1.QFDI质量屋举例不用怀疑,现在大部分参考教材所谓 ...
用Laya制作简单的动画
(function () { var layaGameInit = window.layaGameInit || {}; var WebGL = Laya.WebGL; var Browser = L ...
Eureka 高可用 - 踩坑回忆
1.application.yml中eureka配置更改 ## Eurake 公用配置 ## 向其他注册中心注册 eureka.client.register-with-eureka=true ## ...
Python——制作模块
步骤一:创建包步骤二:编辑示例模块代码 __init__调用: 步骤三:创建setup.py from distutils.core import setup setup(name="pa ...
Linux 时间日期类、搜索查找类、压缩和解压类指令
l 时间日期类 date指令-显示当前日期基本语法 1) date (功能描述:显示当前时间) 2) date +%Y (功能描述:显示当前年份) 3) date +%m (功能描述:显示当前月份) ...

python的爬虫

python的爬虫的更多相关文章

随机推荐

热门专题