urllib的实现---cookie处理

Cookie的使用

用 Python 来登录网站, 用Cookies记录登录信息, 然后就可以抓取登录之后才能看到的信息。

什么是cookies?

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）。
比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。
opener的概念
当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。在前面，我们都是使用的默认的opener，也就是urlopen。

urlopen是一个特殊的opener，可以理解成opener的一个特殊实例，传入的参数仅仅是url，data，timeout。
如果我们需要用到Cookie，只用这个opener是不能达到目的的，所以我们需要创建更一般的opener来实现对Cookie的设置。
Cookielib
cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源。Cookielib模块非常强大，我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送，比如可以实现模拟登录功能。该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。
它们的关系：CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar

使用cookie登录的步骤
1）获取Cookie保存到变量

import urllib.request

import http.cookiejar

URL_ROOT = r'http://d.weibo.com/'

cookie = http.cookiejar.CookieJar()  # 声明一个CookieJar对象实例来保存cookie

handler = urllib.request.HTTPCookieProcessor(cookie)  # 利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器

opener = urllib.request.build_opener(handler)  # 通过handler来构建opener

response = opener.open(URL_ROOT)  # 此处的open方法同urllib2的urlopen方法，也可以传入request

for item in cookie:

    print('Name = ' + item.name)

    print('Value = ' + item.value)

我们使用以上方法将cookie保存到变量中，然后打印出了cookie中的值，运行结果如下
Name = YF-Page-G0

Value = dc8d8d4964cd93a7c3bfa7640c1bd10c

Note:py3中opener也可以这样使用：

request = urllib.request.Request(URL_ROOT, postdata, headers)

response = opener.open(request)

或者：

urllib.request.install_opener(opener)

request = urllib.request.Request(URL_ROOT, postdata, headers)

response = urllib.request.urlopen(request)
2）保存Cookie到文件
上面我们将cookie保存到了cookie这个变量中，如果我们想将cookie保存到文件中该怎么做呢？
这时，我们就要用到FileCookieJar这个对象了，在这里我们使用它的子类MozillaCookieJar来实现Cookie的保存

import urllib.request, urllib.parse, urllib.error

import http.cookiejar

URL_ROOT = 'http://www.jobbole.com/login/'

values = {'name': '******', 'password': '******'}

postdata = urllib.parse.urlencode(values).encode()

user_agent = r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'

headers = {'User-Agent': user_agent}

cookie_filename = 'cookie.txt'

cookie = http.cookiejar.LWPCookieJar(cookie_filename)

handler = urllib.request.HTTPCookieProcessor(cookie)

opener = urllib.request.build_opener(handler)

request = urllib.request.Request(URL_ROOT, postdata, headers)

try:

    response = opener.open(request)

except urllib.error.URLError as e:

    print(e.reason)

cookie.save(ignore_discard=True, ignore_expires=True)  # 保存cookie到cookie.txt中

for item in cookie:

    print('Name = ' + item.name)

    print('Value = ' + item.value)

Note:

1. 不同cookie写入文件方法的解释：

FileCookieJar(filename)：创建FileCookieJar实例，检索cookie信息并将信息存储到文件中，filename是文件名。

MozillaCookieJar(filename)：创建与Mozilla cookies.txt文件兼容的FileCookieJar实例。

LWPCookieJar(filename)：创建与libwww-perl Set-Cookie3文件兼容的FileCookieJar实例。

2. save方法的两个参数的官方解释：

ignore_discard: save even cookies set to be discarded. 即使cookies将被丢弃也将它保存下来

ignore_expires: save even cookies that have expiredThe file is overwritten if it already exists.如果在该文件中cookies已经存在，则覆盖原文件写入

3. python3中如果直接使用http.cookiejar.CookieJar(filename)的方式会出错：self._policy._now = self._now = int(time.time()) AttributeError: 'str' object has no attribute '_now'。注意要将CookieJar改为LWPCookieJar。

3）从文件中获取Cookie并访问
那么我们已经做到把Cookie保存到文件中了，如果以后想使用，可以利用下面的方法来读取cookie并访问网站，感受一下

import urllib.request

import urllib.parse

import urllib.error

import http.cookiejar

cookie_filename = 'cookie_jar.txt'

cookie = http.cookiejar.MozillaCookieJar(cookie_filename)

cookie.load(cookie_filename, ignore_discard=True, ignore_expires=True)

handler = urllib.request.HTTPCookieProcessor(cookie)

opener = urllib.request.build_opener(handler)

get_url = 'http://www.jobbole.com/'  # 利用cookie请求访问另一个网址

get_request = urllib.request.Request(get_url)

get_response = opener.open(get_request)

print(get_response.read().decode())

http://blog.csdn.net/pipisorry/article/details/47905781

urllib的实现---cookie处理的更多相关文章

python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
urllib库利用cookie实现模拟登录慕课网
思路 1.首先在网页中使用账户和密码名登录慕课网 2.其次再分析请求头,如下图所示,获取到请求URL,并提取出cookie信息,保存到本地 3.最后在代码中构造请求头,使用urllib.request ...
Urllib库及cookie的使用
https://blog.csdn.net/pipisorry/article/details/47905781
urllib库认证，代理，cookie
认证,代理,cookie 1from urllib.request import HTTPBasicAuthHandler, HTTPPasswordMgrWithDefaultRealm, buil ...
Python3 登陆网页并保持cookie
网页登陆网页登陆的原理都是,保持一个sessionid在cookie然后,根据sessionid在服务端找到cookie进行用户识别 python实现由于python的简单以及丰富的类库是开发网络 ...
爬虫学习----获取cookie
http://blog.csdn.net/samxx8/article/details/21535901 1.获取cookie import urllib import http.cookiejarc ...
Python3 内建模块 hashlib、itertools、HTMLParser、urllib
Python的hashlib提供了常见的摘要算法,如MD5,SHA1等等. 什么是摘要算法呢?摘要算法又称哈希算法.散列算法.它通过一个函数,把任意长度的数据转换为一个长度固定的数据串(通常用16进制 ...
python爬虫从入门到放弃（三）之 Urllib库的基本使用
官方文档地址:https://docs.python.org/3/library/urllib.html 什么是Urllib Urllib是python内置的HTTP请求库包括以下模块urllib.r ...
python 3.x 爬虫基础---Urllib详解
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解前言爬虫也了解了一段时间了希望在半个月的时间内 ...

随机推荐

我们为什么要使用List和Set（List,Set详解）
1.集合概述类图集合和数组的区别? 集合基本方法集合特有的遍历方式? public static void main(String[] args) { //创建集合对象 Collection c ...
Python之列表
一.列表的特点列表也是一种数据类型列表元素是有序的,有编号的列表元素的下标从0开始列表中的每一个值叫一个元素,编号叫下标(索引/角标): stu_name=['崔海龙','杨帆','lrx', ...
CGI、FAST-CGI、PHP-CGI、PHP-FPM的关系
转自:https://www.awaimai.com/371.html 关于这一类的文章还有:https://zhuanlan.zhihu.com/p/20694204 在搭建 LAMP/LNMP 服 ...
MapReduce过程<原创>
一.预处理阶段二.Map阶段一个Map任务被JobTracker(管家)分配到多个TaskTracker(弟弟)执行,如下图所示,弟弟的map()只负责拆分,虽然map()输出两个相同的键值对,但 ...
爱上linux 简单实现移动办公处理环境.
1. 这周一直在鼓捣linux上面的环境测试. 简单的将我们的产品部署到了linux上面详情见前面的 blog 2. 有时候下班了或者是在WC (科技园wc排队说多了都是泪) 或者是眼睛不舒 ...
CentOS7安装Jenkins自动化部署maven项目
前言: 最近要弄一个jenkins工具,已经安装好了并且jenkins使用部署项目的流程已经基本走通,上图: 话不多说,开始第一步:安装jenkins: [ 准备环境: 在centOS7环境上:安装 ...
打印module查看参数
module1下的index.js require('./test2') main.js require('./module1')和require('./module2') 打印每个文件的module ...
【转】 Golang输入输出格式化Printf Springf Fprintf..
// Go 在传统的`printf` 中对字符串格式化提供了优异的支持. // 这里是一些基本的字符串格式化的人物的例子. package main import "fmt" im ...
linux寻找依赖文件
在linux下编译安装软件有时候会遇到依赖文件找不到的情况,很多时候可以通过 sudo apt install -f 来解决:实在找不到怎么办,还有一个绝招可以用: 安装 apt-file sudo ...
Js返回上一页，刷新页面，定时刷新，改变地址栏等常用实用技巧
1. Javascript 返回上一页history.go(-1), 返回两个页面: history.go(-2); 2. history.back(). 3. window.history.forw ...

urllib的实现---cookie处理

urllib的实现---cookie处理的更多相关文章

随机推荐

热门专题