Spider--补充--Requests--session&cookie

# session 与 cookie

# 可能大家对session已经比较熟悉了，也大概了解了session的机制和原理，但是我们在做爬虫时如何会运用到session呢，就是接下来要讲到的会话保持。

# 首先说一下，为什么要进行会话保持的操作？

# requests库的session会话对象可以跨请求保持某些参数，说白了，就是比如你使用session成功的登录了某个网站，则在再次使用该session对象求求该

# 网站的其他网页都会默认使用该session之前使用的cookie等参数尤其是在保持登陆状态时运用的最多，在某些网站抓取，或者app抓取时，有的时强制登陆，

# 有的是不登陆返回的数据就是假的或者说是不完整的数据，那我们不可能去做到每一次请求都要去登陆一下怎么办，就需要用到保持会话的功能了，我们可以

# 只登陆一次，然后保持这种状态去做其他的或者更多的请求。其次，我们该如何使用会话保持？举一个事例来说明一下：

#requests.session():维持会话,可以让我们在跨请求时保存某些参数

import requests

#实例化session

session = requests.session()

url = 'https://www.douban.com/accounts/login'

form_data = {

    'source': 'index_nav',

    'form_email': 'xxx',

    'form_password': 'xxx',

    'captcha-solution': 'stamp',

    'captcha-id': 'b3dssX515MsmNaklBX8uh5Ab:en'}

#设置请求头

req_header = {

    'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',

}

#使用session发起请求

response = session.post(url,headers=req_header,data=form_data)

if response.status_code == 200:

    #访问个人主页：

    url = 'https://www.douban.com/people/175417123/'

    response = session.get(url,headers = req_header)

    if response.status_code == 200:

        with open('douban3.html','w') as file:

            file.write(response.text)

import requests

import time

mycookie = { "PHPSESSID":"56v9clgo1kdfo3q5q8ck0aaaaa" }

x = requests.session()

requests.utils.add_dict_to_cookiejar(x.cookies,{"PHPSESSID":"07et4ol1g7ttb0bnjmbiqjhp43"})

x.get("http://127.0.0.1:80",cookies = mycookie)

time.sleep(5)

#请求以后抓包可以检验一下是不是添加成功

x.get("http://127.0.0.1:80")

# 这样，通过requests.utils.add_dict_to_cookiejar对session对象设置cookie，之后所有的请求都会自动加上我自定义的cookie内容。

# 也可以通过requests.utils.cookiejar_from_dict 先生成一个cookiejar对象，到时候再赋值给session.cookies。

# 貌似还可以使用session.cookies.set()或者update()。

# 另外说一点单独处理cookie字段，处理为字典格式:

cookie = "SINAGLOBAL=821034395211.0111.1522571861723; wb_cmtLike_1850586643=1; un=tyz950829@sina.com; wb_timefeed_1850586643=1; UOR=,,login.sina.com.cn; wvr=6; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WWsNeq71O_sXkkXNnXFHgOW5JpX5KMhUgL.Fo2RSK5f1hqcShe2dJLoI0qLxK-L12qLB-zLxKqL1hnL1K2LxK-LBo5L12qLxKqL1hML1KzLxKnL1K.LB-zLxK-L1K-LBKqt; YF-V5-G0=c99031715427fe982b79bf287ae448f6; ALF=1556795806; SSOLoginState=1525259808; SCF=AqTMLFzIuDI5ZEtJyAEXb31pv1hhUdGUCp2GoKYvOW0LQTInAItM-ENbxHRAnnRUIq_MR9afV8hMc7c-yVn2jI0.; SUB=_2A2537e5wDeRhGedG7lIU-CjKzz-IHXVUm1i4rDV8PUNbmtBeLVrskW9NUT1fPIUQGDKLrepaNzTEZxZHOstjoLOu; SUHB=0IIUWsCH8go6vb; _s_tentry=-; Apache=921830614666.5322.1525261512883; ULV=1525261512916:139:10:27:921830614666.5322.1525261512883:1525239937212; YF-Page-G0=b5853766541bcc934acef7f6116c26d1"

cookie_dict = {i.split("=")[0]: i.split("=")[1] for i in cookie.split("; ")}

# 实例：

import requests

from bs4 import BeautifulSoup

def getPage(url):

    """

    Utilty function used to get a Beautiful Soup object from a given URL

    """

    session = requests.Session()   # requests.session():维持会话,可以让我们在跨请求时保存某些参数

    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36',

               'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'}

    try:

        req = session.get(url, headers=headers)

    except requests.exceptions.RequestException:

        return None

    bs = BeautifulSoup(req.text, 'html.parser')

    return bs

Spider--补充--Requests--session&cookie的更多相关文章

requests保持登录session ,cookie 和 token
一.request提供了一个一个叫做session的类,来实现客户端和服务端的会话保持 # coding:utf-8 import requests url = "https://passp ...
4 使用Selenium模拟登录csdn，取出cookie信息，再用requests.session访问个人中心（保持登录状态）
代码: # -*- coding: utf-8 -*- """ Created on Fri Jul 13 16:13:52 2018 @author: a " ...
requests库 cookie和session
cookie 如果一个相应中包含了cookie,那么可以利用cookie属性拿到这个返回的cookie值: res = requests.get('http://www.baidu.com') pri ...
http之Session&Cookie
百度了一波session与Cookie,我发现这东西远比我想象中更复杂(可能是因为我不明白底层的运行原理).网上也是一堆的关于Session与Cookie区别/联系的文章,然而,我看完了还是一脸懵逼的 ...
python/数据库操作补充—模板—Session
python/数据库操作补充—模板—Session 一.创建一个app目录在models.py只能类进行进行创建表 class Foo: xx= 字段(数据库数据类型) 字段类型字符串 Email ...
requests.session
# -*- coding: utf-8 -*- """requests.session~~~~~~~~~~~~~~~~ This module provides a Se ...
python requests 的cookie 操作
结论: 1.requests模块的请求和响应分别有cookie对象. 可以通过此对象设置和获取cookie. 2.通过在requests.get,requests.post等方法请求中传入cookie ...
Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化
代码如下: # coding:utf-8 from selenium import webdriver import requests import sys import time from lxml ...
知乎模拟登录 requests session
Python 3.5 # -*- coding: utf-8 -*- """ Created on Wed May 3 16:26:55 2017 @author: x- ...
Requests方法 -- cookie绕过验证码登录操作
前言有些登录的接口会有验证码:短信验证码,图形验证码等,这种登录的话验证码参数可以从后台获取的(或者查数据库最直接).获取不到也没关系,可以通过添加 cookie 的方式绕过验证码. 1.这里以登录博 ...

随机推荐

获取url中带的参数
本文目前只针对url中一个参数的 function getQueryString(name) { var reg = new RegExp("(^|&)" + name + ...
串口wifi
串口wifi 串口WiFi ZLAN7146是一款wifi转串口的wifi串口服务器.该串口服务器可以方便地使得串口设备连接到WIFI无线网络,实现串口设备的无线化网络升级.RS232接口支持全双工. ...
wine实用经验教程
本篇讲类unix系统下的用以模拟运行Windows程序的wine.会从普通使用者的比较实用的角度去讲.有专为国内用户准备的内容. 本篇面向有Linux经验但对wine不熟悉的人. wine可靠吗?该不 ...
centos7下面 es7.5 搭建
centos6 搭建参考 https://www.cnblogs.com/php-linux/p/8758788.html 搭建linux虚拟机 https://www.cnblogs.com/ph ...
spring boot:使mybatis访问多个druid数据源(spring boot 2.3.2)
一,为什么要使用多个数据源? 1,什么情况下需要使用多个数据源? 当我们需要访问不同的数据库时,则需要配置配置多个数据源, 例如:电商的业务数据库(包括用户/商品/订单等) 和统 ...
spring boot:用shardingjdbc实现多数据源的分库分表(shardingsphere 4.1.1/spring boot 2.3.1)
一,shardingjdbc的用途 1,官方站介绍: Apache ShardingSphere 是一套开源的分布式数据库中间件解决方案组成的生态圈, 它由 JDBC.Proxy 和 Sidecar( ...
docker的常用操作之二:docker内无法解析dns之firewalld设置等
一,如何启动一个已退出的容器? [root@localhost ~]# docker start storage4 说明:架构森林是一个专注架构的博客,地址:https://www.cnblogs.c ...
Helium文档4-WebUI自动化-write写入
前言 write方法是模拟在输入框中写入数据 write入参说明 def write(text, into=None): """ :param text: The ...
Docker知识总结
目录 1 安装docker 2 docker基本概念 2.1 Docker是容器化平台 2.2 Docker体系结构 2.3 容器与镜像 3 docker常用命令 3.1 快速安装tomcat 3.1 ...
10 个 Python 初学者必知编码小技巧
技巧 #1 字符串翻转 a = "codementor">>> print "Reverse is",a[::-1]翻转后的结果为 rotne ...

Spider--补充--Requests--session&cookie

Spider--补充--Requests--session&cookie的更多相关文章

随机推荐

热门专题