Python中的urllib

urllib提供了一系列URL的功能。

Get

urllib的request模块可以非常方便的抓取URL内容，也就是发送一个GET请求到指定的页面，然后返回HTTP响应：

例如，对豆瓣的一个URLhttps://opi.douban.com/v2/book/2129650进行抓取，并返回响应：

from urllib import request

with request.urlopen('https://api.douban.com/v2/book/2129650') as f:

    data = f.read()

    print('Status:',f.status, f.reason)

    for k, v in f.getheader():

        print('%s: %s' % (k, v))

    print('Data:', data.decode('utf-8'))

可以看到HTTP响应的头和JSON数据：

Stutas：200 OK

Server: nginx

Date: Tue, 26 May 2015 10:02:27 GMT

Content-Type:application/json, charset=utf-8

Content-Length: 2049

Connection: close

Expires: Sun, 1 Jan 2006 01:00:00 GMT

Pragma: no-cache

Cache-Contorl: must-revalidate, no-cache, private

X-DAE-Node: pidll

Data:{"rating": {"max": 10, "numRaters": 16,"average":"7.4","min":0}, "subititle":"","author":["编著"]}，“pubdate”：“2007-6，...”

如果我们想要模仿浏览器发送GET请求，就需要使用Request对象，通过往Request对象添加HTTP头，我们就可以把请求伪装成浏览器。例如，模拟iPone 6 去请求豆瓣首页：

from urllib import request

req = request.Request("http://www.douban.com/")

req.add_header('User-Agent', 'Moailla/6.0 (iPone OS 8_0 like Mac OS X) AppleWebKit/536.26(KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25')

with request.urlopen(req) as f:

    print('Status:', f.status, f.reason)

    for k, v in f.getheaders():

        print('%s: %s' % (k, v))

    print('Data:', f.read().decode('utf-8'))

这样豆瓣返回适合iPone的移动网页：

...

<meta name = 'viewport' content='width=device-width, user-scalable=no, initial-scale-1.0, minimum-scale=1.0, maxmum-scale=1.0'>

<meta name="format-detection" content=no>

<link rel="apple-touch-icon" sizes="57*57" href="http://img4.douban.com/pics/cardkit/launcher/57.png"/>

...

Post

如果要以POST发送一个请求，只需要把参数data以bytes形式传入。

我们模拟一个微博登陆，先读取登陆的邮箱和口令，然后按照weibo.cn的登陆页的格式以username=xxx&password=xxx的编码传入：

from urllib import request, parse

print('Login to webo.cn...')

email = input('Email:')

passwd  = input("Passwod:")

login_data = parse.urlencode([

     ('username',email),

     ('password', passwd),

     ('entry', 'mweibo'),

     ('client_id', ''),

     ('savestate', ''),

     ('ec', ''),

     ('pagerefer', 'https://passport.weibo.cn/sigin/welcome?entry=mweibo&r=http%3A%2F%2FM.weibo.cn%2F')]) 

 req = request.Request('https://passport.weibo.cn/sso/login')

req.add_header('Origin', 'https://passport.weibo.cn')

req.add_header('User-Agent', 'Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25')

req.add_header('Referer', 'https://passport.weibo.cn/signin/login?entry=mweibo&res=wel&wm=3349&r=http%3A%2F%2Fm.weibo.cn%2F')

with request.urlopen(req, data=login_data.encode('utf-8')) as f:

    print('Status:', f.status, f.reason)

    for k, v in f.getheaders():

        print('%s: %s' % (k, v))

    print('Data:', f.read().decode('utf-8'))

如果登陆成功，我们获得的响应如下：

Status: 200 OK

Server: nginx/1.2.0

...

set-Cookie: SSOLoginState= 1432620126; path=/;domain = weibo.cn

...

Data:{"retcode": 20000000, 'msg':'data':{...,"uid":""}}

如果登陆失败，我们获得的响应如下;

...

Data: {"retcode": 50011015,"msg":"\u7528\u6237\u540d\u6216\u5bc6\u7801\u9519\u8bef","data":{"username":"example@python.org","errine": 536}}

小结

urllib提供的功能就是利用程序去执行各种HTTP请求。吐过要模拟浏览器完成特定功能，需要吧请求伪装成浏览器。伪装的方法是先监控浏览器发出的请求，在根据浏览器的请求头来伪装，User-Agent 头就是用来via哦是浏览器的。

Python中的urllib的更多相关文章

┱Python中关于urllib和urllib2的问题
python3对urllib和urllib2进行了重构主要拆分成了:1.urllib.request 1.urllib.request.Request(url, data=None, headers= ...
第14.9节 Python中使用urllib.request+BeautifulSoup获取url访问的基本信息
利用urllib.request读取url文档的内容并使用BeautifulSoup解析后,可以通过一些基本的BeautifulSoup对象输出html文档的基本信息.以博文<第14.6节使用 ...
python学习笔记——urllib库中的parse
1 urllib.parse urllib 库中包含有如下内容 Package contents error parse request response robotparser 其中urllib.p ...
python中Url链接编码处理（urlencode,urldecode）
做完了flask-web应用,这几天想用爬虫做个好玩的电影链接整合器,平时找电影都是在dytt或者dy2018之类的网站,在用dytt搜索电影<美国队长时>,发现他的搜索链接是这样的:ht ...
Python爬虫之urllib.parse详解
Python爬虫之urllib.parse 转载地址 Python 中的 urllib.parse 模块提供了很多解析和组建 URL 的函数. 解析url 解析url( urlparse() ) ur ...
第14.8节 Python中使用BeautifulSoup加载HTML报文
一. 引言 BeautifulSoup是一个三方模块bs4中提供的进行HTML解析的类,可以认为是一个HTML解析工具箱,对HTML报文中的标签具有比较好的容错识别功能.阅读本节需要了解html相关的 ...
[转]Python中urllib与urllib2的区别与联系
引用文章1:http://my.oschina.net/u/558071/blog/144792 引用文章2:http://zhuoqiang.me/python-urllib2-usage.html ...
python中urllib, urllib2,urllib3, httplib,httplib2, request的区别
permike原文python中urllib, urllib2,urllib3, httplib,httplib2, request的区别若只使用python3.X, 下面可以不看了, 记住有个ur ...
python中 urllib, urllib2, httplib, httplib2 几个库的区别
转载摘要: 只用 python3, 只用 urllib 若只使用python3.X, 下面可以不看了, 记住有个urllib的库就行了 python2.X 有这些库名可用: urllib, urll ...

随机推荐

mnist全连接层网络权值可视化
一.数据准备网络结构:lenet_lr.prototxt 训练好的模型:lenet_lr_iter_10000.caffemodel 下载地址:链接:https://pan.baidu.com/s/ ...
5G投资逻辑
5G投资逻辑关注光模块生产厂商. 通信射频滤波器,功率放大器生产厂商. 光无源器件的需求增多
docker centos7创建consul镜像以及用docker-compose启动镜像
直接贴代码了: Dockfile: # Version 0.1 FROM kuba_centos7 MAINTAINER kuba si812cn@163.com # This is the rele ...
VirtualBox网络的Host-Only配置
创建host-only虚拟网卡 VBox管理器页面-管理-主机网络管理器,如果已经存在默认的虚拟网卡则下一步,如果不存在则创建一个虚拟网卡,不启用DHCP服务器,这里ip地址为192.168.137. ...
一些有用的Java学习资料
Better Java,一些好的Java实践 Google Java Style Guide 30个Java编程技巧 JDK8新增语法特性简介,对Java8中新增的函数接口.Lambda表达式.方法引 ...
new 对象时的暗执行顺序
为什么称为暗执行顺序,因为当我们在new 对象时,其不是简简单单的new一个完事,它要首先检查父类的,静态的,非静态的等代码,就好像我们结婚生孩子一样,要先到祖宗那里,公安局那里,左邻右舍那里,告诉他 ...
wordpress 插件Simple Social Buttons import处漏洞复现
前言: 漏洞范围范围:simple socail buttons v2.0.4到v2.0.22之间的所有版本利用条件,wordpress的普通用户漏洞细节:该插件缺少权限的检查,非管理管权限执行管 ...
linux添加zabbix service并开机自动启动
最近有个数据库相关操作后需要重启操作系统,重启后发现zabbix监控一直没有数据,迷了半天原来zabbix压根就没有启动.想了半天决定把zabbix添加到系统服务,并设置开机启动. 1.按一定的规则编 ...
window 10 专业版激活|win 10专业版激活码
下面讲解Windows 10专业版(windows 10 profession version)使用激活码激活鼠标移至屏幕最左下处右击点击 Windows PowerShell(管理员) 在wind ...
Using a ScrollView - RN4
使用滚动条. 1. import import {ScrollView} from "react-native"; 2. Using <ScrollView> ... ...

Python中的urllib

Python中的urllib的更多相关文章

随机推荐

热门专题