爬虫基本原理及requests,response详解

一、爬虫基本原理

　　1、爬虫是什么

#1、什么是互联网？

    互联网是由网络设备（网线，路由器，交换机，防火墙等等）和一台台计算机连接而成，像一张网一样。

#2、互联网建立的目的？

    互联网的核心价值在于数据的共享/传递：数据是存放于一台台计算机上的，而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递，
　　 否则你只能拿U盘去别人的计算机上拷贝数据了。

#3、什么是上网？爬虫要做的是什么？

    我们所谓的上网便是由用户端计算机发送请求给目标计算机，将目标计算机的数据下载到本地的过程。

    #3.1 用户获取网络数据的方式一般是：

      浏览器提交请求->下载网页代码->解析/渲染成页面。

    #3.2 而爬虫程序要做的就是：

      模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中

　

    #3.1与3.2的区别在于:

      我们的爬虫程序只提取网页代码中对我们有用的数据

#4、总结爬虫#4.1 爬虫的定义：

      向网站发起请求，获取资源后分析并提取有用数据的程序 

    #4.2 爬虫的价值：

      互联网中最有价值的便是数据，比如天猫商城的商品信息，链家网的租房信息，雪球网的证券投资信息等等，这些数据都代表了各个行业的真金白银，可以说，
　　　 谁掌握了行业内的第一手数据，谁就成了整个行业的主宰，如果把整个互联网的数据比喻为一座宝藏，那我们的爬虫课程就是来教大家如何来高效地挖掘这些宝藏，掌握了爬虫技能，
　　　 你就成了所有互联网信息公司幕后的老板，换言之，它们都在免费为你提供有价值的数据。

　　2、爬虫的基本流程

#1、发起请求

使用http库向目标站点发起请求，即发送一个Request

Request包含：请求头、请求体等

#2、获取响应内容

如果服务器能正常响应，则会得到一个Response

Response包含：html，json，图片，视频等

#3、解析内容

解析html数据：正则表达式，第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析二进制数据:以b的方式写入文件

#4、保存数据

数据库

文件

　　3、请求与响应

#Request：用户将自己的信息通过浏览器（socket client）发送给服务器（socket server）

#Response：服务器接收请求，分析用户发来的请求信息，然后返回数据（返回的数据中可能包含其他链接，如：图片，js，css等）

#ps：浏览器在接收Response后，会解析其内容来显示给用户，而爬虫程序在模拟浏览器发送请求然后接收Response后，只提取自己想要的数据。

　　4、requests模块

　　　　引子：使用request模块进行请求时需要注意4点：请求方式，请求url，请求头和请求体。

　　　　1）基于GET请求

　　　　　　a、基本请求

import requests

response=requests.get('http://dig.chouti.com/')

print(response.text)

　　　　　　b、带参数的GET请求->params

#在请求头内将自己伪装成浏览器，否则百度不会正常返回页面内容

import requests

response=requests.get('https://www.baidu.com/s?wd=python&pn=1',

                      headers={

                        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',

                      })

print(response.text)

#如果查询关键词是中文或者有其他特殊符号，则不得不进行url编码

from urllib.parse import urlencode

wd='egon老师'

encode_res=urlencode({'k':wd},encoding='utf-8')

keyword=encode_res.split('=')[1]

print(keyword)

# 然后拼接成url

url='https://www.baidu.com/s?wd=%s&pn=1' %keyword

response=requests.get(url,

                      headers={

                        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',

                      })

res1=response.text

自己拼接GET参数

#上述操作可以用requests模块的一个params参数搞定，本质还是调用urlencode

from urllib.parse import urlencode

wd='egon老师'

pn=1

response=requests.get('https://www.baidu.com/s',

                      params={

                          'wd':wd,

                          'pn':pn

                      },

                      headers={

                        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',

                      })

res2=response.text

#验证结果，打开a.html与b.html页面内容一样

with open('a.html','w',encoding='utf-8') as f:

    f.write(res1)

with open('b.html', 'w', encoding='utf-8') as f:

    f.write(res2)

使用params获取参数

　　　　　　c、带参数的GET请求->headers

#通常我们在发送请求时都需要带上请求头，请求头是将自身伪装成浏览器的关键，常见的有用的请求头如下

　　　　　　Host

　　　　　　Referer #大型网站通常都会根据该参数判断请求的来源

　　　　　　User-Agent #客户端

　　　　　　Cookie #Cookie信息虽然包含在请求头里，但requests模块有单独的参数来处理他，headers={}内就不要放它了

#添加headers(浏览器会识别请求头,不加可能会被拒绝访问,比如访问https://www.zhihu.com/explore)

import requests

response=requests.get('https://www.zhihu.com/explore')

response.status_code #

#加上headers

headers={

    'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 
　　(KHTML, like Gecko) Chrome/46.0.2490.76 Mobile Safari/537.36',

}

respone=requests.get('https://www.zhihu.com/explore',

                     headers=headers)

print(respone.status_code) #

　　　　　　d、带参数的GET请求->cookies#登录github，然后从浏览器中获取cookies，以后就可以直接拿着cookie登录了，无需输入用户名密码

#示例数据，并无实际意义：用户名:ming 邮箱123456789@qq.com 密码ming@123

import requests

Cookies={ 'user_session':'wGMHFJKgDcmRIVvcA14_Wrt_3xaUyJNsBnPbYzEL6L0bHcfc',}

response=requests.get('https://github.com/settings/emails',

             cookies=Cookies) #github对请求头没有什么限制，我们无需定制user-agent，对于其他网站可能还需要定制

print('123456789@qq.com' in response.text) #True

#可使用requests.session()来处理cookie

session=requests.session()

Cookies={ 'user_session':'wGMHFJKgDcmRIVvcA14_Wrt_3xaUyJNsBnPbYzEL6L0bHcfc',}

response=requests.get('https://github.com/settings/emails') #此时不需要设置cookie

　　　　2）基于POST请求

　　　　　　a、介绍

#GET请求

HTTP默认的请求方法就是GET

     * 没有请求体

     * 数据必须在1K之内！

     * GET请求数据会暴露在浏览器的地址栏中

GET请求常用的操作：

       1. 在浏览器的地址栏中直接给出URL，那么就一定是GET请求

       2. 点击页面上的超链接也一定是GET请求

       3. 提交表单时，表单默认使用GET请求，但可以设置为POST

#POST请求

(1). 数据不会出现在地址栏中

(2). 数据的大小没有上限

(3). 有请求体

(4). 请求体中如果存在中文，会使用URL编码！

#！！！requests.post()用法有一个独有的data参数,用来存放请求体的数据，其余与requests.get()一致

　　　　　　b、发送POST请求，模拟浏览器的登录行为，登录Github

'''

一 目标站点分析

    浏览器输入https://github.com/login

    然后输入错误的账号密码，抓包

    发现登录行为是post提交到：https://github.com/session

    发现请求头包含cookie

    发现请求体包含：

        commit:Sign in

        utf8:✓

   authenticity_token:lbI8IJCwGslZS8qJPnof5e7ZkCoSoMn6jmDTsL1r/m06NLyIbw7vCrpwrFAPzHMep3Tmf/TSJVoXWrvDZaVwxQ==

        login:egonlin

        password:123

二 流程分析

    先GET：https://github.com/login拿到初始cookie与authenticity_token

    然后POST：https://github.com/session， 带上初始cookie，带上请求体（authenticity_token，用户名，密码等）

    最后拿到登录状态的cookie

    ps：如果密码是密文形式，则可以先输错账号，输对密码，然后到浏览器中拿到加密后的密码，github的密码是明文

'''

import requests

import re

#第一次请求

r1=requests.get('https://github.com/login')

r1_cookie=r1.cookies.get_dict() #拿到初始cookie(未被授权)

authenticity_token=re.findall(r'name="authenticity_token".*?value="(.*?)"',r1.text)[0] #从页面中拿到authenticity_token

#第二次请求：带着初始cookie和TOKEN发送POST请求给登录页面，带上账号密码

data={

    'commit':'Sign in',

    'utf8':'✓',

    'authenticity_token':authenticity_token,

    'login':'m807527595',

    'password':''

}

r2=requests.post('https://github.com/session',

             data=data,

             cookies=r1_cookie

             )

login_cookie=r2.cookies.get_dict()

#第三次请求：以后的登录，拿着login_cookie就可以,比如访问一些个人配置

r3=requests.get('https://github.com/settings/emails',

                cookies=login_cookie)

print('m807527595' in r3.text) #True

1、自己处理cookie信息

import requests

import re

session=requests.session()

#第一次请求

r1=session.get('https://github.com/login')

authenticity_token=re.findall(r'name="authenticity_token".*?value="(.*?)"',r1.text)[0] #从页面中拿到authenticity_token

#第二次请求

data={

    'commit':'Sign in',

    'utf8':'✓',

    'authenticity_token':authenticity_token,

    'login':'m807527595',

    'password':''

}

r2=session.post('https://github.com/session',

             data=data,

             )

#第三次请求

r3=session.get('https://github.com/settings/emails')

print('m807527595' in r3.text) #True

requests.session()自动帮我们保存cookie信息

2、requests.session()自动处理cookie

　　4、Response响应

import requests

respone=requests.get('http://www.jianshu.com')

# respone属性

print(respone.text) # 获取响应的页面内容

print(respone.content) # 获取二进制页面内容

print(respone.status_code) # 获取响应状态码

print(respone.headers) # 获取来自服务器的与此响应关联的标头。

print(respone.cookies) # 获取或设置与此响应关联的 cookie。

print(respone.cookies.get_dict()) # 获取字典形式的cookie

print(respone.url) # 获取响应的url地址

print(respone.history) # 通过这个方法可以查看这个响应页面是从哪个url跳转过来的

print(respone.encoding) # 获取响应内容的编码格式

#关闭：response.close()

from contextlib import closing

with closing(requests.get('xxx',stream=True)) as response:

    for line in response.iter_content():

    pass

爬虫基本原理及requests,response详解的更多相关文章

Requests实践详解
Requests是什么 Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现, ...
爬虫入门之urllib库详解(二)
爬虫入门之urllib库详解(二) 1 urllib模块 urllib模块是一个运用于URL的包 urllib.request用于访问和读取URLS urllib.error包括了所有urllib.r ...
python的requests用法详解
Requests是一个Python语言写的http相关设置或者请求的一个库安装:pip install Requests或者pip3 install requests 使用的时候要import re ...
Python爬虫之selenium库使用详解
Python爬虫之selenium库使用详解本章内容如下: 什么是Selenium selenium基本使用声明浏览器对象访问页面查找元素多个元素查找元素交互操作交互动作执行JavaS ...
Python爬虫学习==>第八章：Requests库详解
学习目的: request库比urllib库使用更加简洁,且更方便. 正式步骤 Step1:什么是requests requests是用Python语言编写,基于urllib,采用Apache2 Li ...
Python爬虫系列-Requests库详解
Requests基于urllib,比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求. 实例引入 import requests response = requests.get( ...
爬虫学习--Requests库详解 Day2
什么是Requests Requests是用python语言编写,基于urllib,采用Apache2 licensed开源协议的HTTP库,它比urllib更加方便,可以节约我们大量的工作,完全满足 ...
python WEB接口自动化测试之requests库详解
由于web接口自动化测试需要用到python的第三方库--requests库,运用requests库可以模拟发送http请求,再结合unittest测试框架,就能完成web接口自动化测试. 所以笔者今 ...
JavaWeb学习篇之----容器Response详解
今天在来看一下Response容器的相关知识,其实这篇blog早就应该编写了,只是最近有点忙,所以被中断了.下面我们就来看一下Response容器的相关知识吧.Response和我们即将在后面说到的R ...

随机推荐

WebBrowser内嵌页面的跨域调用问题
很早之前我写过一篇Blog:网页通过External接口与WebBrowser交互,文中的交互其实只介绍了JS调用C++的部分,而C++调用JS由于微软自己的例子太多,那篇文章就没介绍,不过我最近遇到 ...
搭建Linux的VMware Workstation Pro
搭建准备环境: 1.win10操作系统: 2.VMware Workstation Pro12: 下载地址 http://www.vmware.com/products/workstation/w ...
Java的栈和堆
JVM的内存区域可以被分为:线程栈,堆,静态方法区(实际上还有更多功能的区域,并且这里说的是JVM的内存区域) 线程栈: 注意这个栈和数据结构中的stack有相似之处,但并不是用户态的.准确 ...
STL树
前几天觉得STL中没有树和图真是一种莫大的遗憾啊,但是在网上搜了搜,发现其实可以用容器很简单的构造树. 还是废话少说上代码: struct TreeNode{ DataType data; // Da ...
LeetCode: 463 Island Perimeter(easy)
题目: You are given a map in form of a two-dimensional integer grid where 1 represents land and 0 repr ...
CSS3 制作魔方 - 相关立体样式
最好的实践,就是给定一个实践的目标去实践. 目标:利用 CSS3 的一些特性,绘制一个魔方,要可以玩转的那种,即上下左右每一层都可以独立旋转.效果如下: 为了完成此效果,将使用到以下相关概念和样式:坐 ...
zepto+mui开发中的tap事件重复执行
zepto.js和mui一起使用的时候,因为都有tap事件绑定tab事件后会多次触发还会报错,这时不引用zepto中的touch.js就可以了,只用mui的tap相关事件. $(function () ...
計蒜客/小教官(xjb)
題目鏈接:https://nanti.jisuanke.com/t/366 題意:中文題誒~ 思路: 先通過給出的條件構造一個符合題意的數組(可以是任意一個符合條件的數組,菜雞不會證明: 然後構造的數 ...
IT兄弟连 JavaWeb教程 JSP内置对象经典面试题
1．请说明cookie.request.session.application的作用域和声明周期? 并说明它们适用与什么场景? request的生命周期是一次请求.可以用于JSP表单提交数据. ses ...
IDEA安装actiBPM插件，亲测成功！避免直接在线安装或下载jar包硬盘都会报错问题！
在安装actiBPM之前先对IEDA进行如下设置: 开始安装网上的教程直接IDEA安装actiBPM,能安装成功,但无法打开新建bpmn文件.多次重新安装重启还是不行,苦苦弄了几个小时,最后才找到下面 ...

爬虫基本原理及requests,response详解

爬虫基本原理及requests,response详解的更多相关文章

随机推荐

热门专题