一、cookie&session

cookie：服务器端使用cookie来记录客户端的状态信息

实现流程：

执行登陆操作（获取cookie)
在发起个人主页请求时，需要将cookie携带到该请求中

注意：session对象也可以发送请求，并且会将cookie对象进行自动存储

cookie&session演示

import requests
 
session = requests.session()
# 1. 发起登陆请求：将cookie获取，且存储到session对象中
login_url = 'https://accounts.douban.com/login'
data = {
    'source':'None',
    'redir':'https://www.douban.com/people/141236419/',
    'form_email':'',
    'form_password':'lshhxr0418',
    'login':'登陆',
}
 
# 自定义请求头信息
headers =  {
     'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
 
# 使用session发起post请求
login_response = session.post(url=login_url,data=data,headers=headers)
 
# 2. 对个人主页发起请求（session），获取响应页面数据
url = 'https://www.douban.com/people/141236419/'
response = session.get(url=url,headers=headers)
page_text = response.text
 
with open('./douban110.html','w',encoding='utf-8') as fp:
    fp.write(page_text)

二、代理操作

第三方代理本体执行相关的事物。生活：代购、微商、中介
为什么要使用代理
1. 反爬操作。
2. 反反爬手段
分类
1. 正向代理：代替客户端获取数据
2. 反向代理：代理服务器端提供数据
免费代理ip的网站提供商

www.goubanjia.com (建议使用)
快代理
西祠代理

代理演示

import requests
 
url = 'http://www.baidu.com/s?ie=utf-8&wd=ip'
 
# 将代理ip封装到字典
# 更换网络ip
proxy = {
    'http':'118.27.20.17:3128'
}
 
# 自定义请求头信息
headers =  {
     'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
 
# 更换网络IP
response = requests.get(url=url,proxies=proxy,headers=headers)
 
with open('./daili.html','w',encoding='utf-8') as fp:
    fp.write(response.text)

爬虫之request模块高级的更多相关文章

03、request 模块高级
requests高级部分代理 cookie 验证码的识别模拟登陆代理代理概念:代理服务器. 作用:接受请求==>请求转发. 代理和爬虫之间的关联: 可以使用请求转发的机制使得目的服务器接 ...
爬虫与request模块
一.爬虫简介 1.介绍网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁. ...
【nodejs】理想论坛帖子下载爬虫1.07 使用request模块后稳定多了
在1.06版本时,访问网页采用的时http.request,但调用次数多以后就问题来了. 寻找别的方案时看到了https://cnodejs.org/topic/53142ef833dbcb076d0 ...
爬虫之urllib包以及request模块和parse模块
urllib简介简介 Python3中将python2.7的urllib和urllib2两个包合并成了一个urllib库 Python3中,urllib库包含有四个模块: urllib.reques ...
爬虫开发.2urllib模块
一.urllib库概念:urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urll ...
python3中urllib库的request模块详解
刚刚接触爬虫,基础的东西得时时回顾才行,这么全面的帖子无论如何也得厚着脸皮转过来啊! 原帖地址:https://www.2cto.com/kf/201801/714859.html 什么是 Urlli ...
asynicio模块以及爬虫应用asynicio模块(高性能爬虫)
一.背景知识爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低. 需要强调的是 ...
第三百二十六节，web爬虫，scrapy模块,解决重复ur——自动递归url
第三百二十六节,web爬虫,scrapy模块,解决重复url——自动递归url 一般抓取过的url不重复抓取,那么就需要记录url,判断当前URL如果在记录里说明已经抓取过了,如果不存在说明没抓取过 ...
第三百二十五节，web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签
第三百二十五节,web爬虫,scrapy模块标签选择器下载图片,以及正则匹配标签标签选择器对象 HtmlXPathSelector()创建标签选择器对象,参数接收response回调的html对象需 ...

随机推荐

ExecutorService的invokeAny方法
一.此方法获得最先完成任务的结果,即Callable<T>接口中的call的返回值,在获得结果时,会中断其他正在执行的任务示例代码: import java.util.ArrayList ...
Linux 配置 ss
Linux 配置 Shadowsocks 标签(空格分隔): ss VPS 1.首先安装 sudo pip install shadowsocks 2.然后在指定位置新建shadowsocks.jso ...
Python 列表排序方法reverse、sort、sorted操作方法
python语言中的列表排序方法有三个:reverse反转/倒序排序.sort正序排序.sorted可以获取排序后的列表.在更高级列表排序中,后两中方法还可以加入条件参数进行排序. reverse() ...
简单记录一下http请求的7个步骤
1.建立TCP连接 2.客户端发送请求命令 3.客户端发送请求头信息 4.服务端应答请求,返回版本号和状态码 5.服务端应答头信息 6.服务端向客户端发送数据 7.服务器关闭TCP连接(Connect ...
day3-购物车小程序
1.要求启动程序后,让用户输入工资,然后打印商品列表允许用户genuine商品编号购买商品用户选择商品后,检测余额是否够,够就直接扣款,不够就提醒还有多少可随时退出,退出时,打印已购买商品和余 ...
【转载】SSH login without password 免密登陆
Your aim You want to use Linux and OpenSSH to automate your tasks. Therefore you need an automatic l ...
asp.net反射的运用
反射的用途: (1)使用Assembly定义和加载程序集,加载在程序集清单中列出模块,以及从此程序集中查找类型并创建该类型的实例. (2)使用Module了解包含模块的程序集以及模块中的 ...
Spring3+Struts2+Hibernate4+Mybatis整合的一个maven例子
说明: 1.用了maven去搞这个demo,懒得去导jar包... 2.这个demo用了spring去做Ioc,事务的aop:用了struts2去做“MVC”(没有用到任何UI技术,有点对不起这个MV ...
BZOJ4566:[HAOI2016]找相同字符(SAM)
Description 给定两个字符串,求出在两个字符串中各取出一个子串使得这两个子串相同的方案数.两个方案不同当且仅当这两个子串中有一个位置不同. Input 两行,两个字符串s1,s2,长度分别 ...
bzoj 2179 FFT
求两个高精度的乘法. 根据高位低位,填入多项式的系数,求两个卷积,然后进位操作.

爬虫之request模块高级

一、cookie&session

cookie&session演示

二、代理操作

代理演示

爬虫之request模块高级的更多相关文章

随机推荐

热门专题