python爬虫User Agent用户代理
UserAgent简介
UserAgent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,UserAgent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;例如用手机访问谷歌和电脑访问是不一样的,这些是谷歌根据访问者的UA来判断的。UA可以进行伪装。
浏览器的UA字串的标准格式:浏览器标识(操作系统标识;加密等级标识;浏览器语言)渲染引擎标识版本信息。但各个浏览器有所不同。
我们在做爬虫的时候,不是通过浏览器正常访问,所以会被很多网站禁止访问,这个时候我们就需要手动在headers里加上UA属性,来伪装成浏览器进行访问。
常见的UserAgent值
1.
PC端:
safari5.
1
–MAC
User
-
Agent:Mozilla
/
5.0
(Macintosh;U;IntelMacOSX10_6_8;en
-
us)AppleWebKit
/
534.50
(KHTML,likeGecko)Version
/
5.1Safari
/
534.50
safari5.
1
–Windows
User
-
Agent:Mozilla
/
5.0
(Windows;U;WindowsNT6.
1
;en
-
us)AppleWebKit
/
534.50
(KHTML,likeGecko)Version
/
5.1Safari
/
534.50
IE9.
0
User
-
Agent:Mozilla
/
5.0
(compatible;MSIE9.
0
;WindowsNT6.
1
;Trident
/
5.0
;
IE8.
0
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE8.
0
;WindowsNT6.
0
;Trident
/
4.0
)
IE7.
0
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT6.
0
)
IE6.
0
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE6.
0
;WindowsNT5.
1
)
Firefox4.
0.1
–MAC
User
-
Agent:Mozilla
/
5.0
(Macintosh;IntelMacOSX10.
6
;rv:
2.0
.
1
)Gecko
/
20100101Firefox
/
4.0
.
1
Firefox4.
0.1
–Windows
User
-
Agent:Mozilla
/
5.0
(WindowsNT6.
1
;rv:
2.0
.
1
)Gecko
/
20100101Firefox
/
4.0
.
1
Opera11.
11
–MAC
User
-
Agent:Opera
/
9.80
(Macintosh;IntelMacOSX10.
6.8
;U;en)Presto
/
2.8
.
131Version
/
11.11
Opera11.
11
–Windows
User
-
Agent:Opera
/
9.80
(WindowsNT6.
1
;U;en)Presto
/
2.8
.
131Version
/
11.11
Chrome17.
0
–MAC
User
-
Agent:Mozilla
/
5.0
(Macintosh;IntelMacOSX10_7_0)AppleWebKit
/
535.11
(KHTML,likeGecko)Chrome
/
17.0
.
963.56Safari
/
535.11
傲游(Maxthon)
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;Maxthon2.
0
)
腾讯TT
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;TencentTraveler4.
0
)
世界之窗(TheWorld)
2.x
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
)
世界之窗(TheWorld)
3.x
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;TheWorld)
搜狗浏览器
1.x
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;Trident
/
4.0
;SE2.XMetaSr1.
0
;SE2.XMetaSr1.
0
;.NETCLR2.
0.50727
;SE2.XMetaSr1.
0
)
360
浏览器
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;
360SE
)
Avant
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;AvantBrowser)
GreenBrowser
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
)
2
、移动设备端:
safariiOS4.
33
–iPhone
User
-
Agent:Mozilla
/
5.0
(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en
-
us)AppleWebKit
/
533.17
.
9
(KHTML,likeGecko)Version
/
5.0
.
2Mobile
/
8J2Safari
/
6533.18
.
5
safariiOS4.
33
–iPodTouch
User
-
Agent:Mozilla
/
5.0
(iPod;U;CPUiPhoneOS4_3_3likeMacOSX;en
-
us)AppleWebKit
/
533.17
.
9
(KHTML,likeGecko)Version
/
5.0
.
2Mobile
/
8J2Safari
/
6533.18
.
5
safariiOS4.
33
–iPad
User
-
Agent:Mozilla
/
5.0
(iPad;U;CPUOS4_3_3likeMacOSX;en
-
us)AppleWebKit
/
533.17
.
9
(KHTML,likeGecko)Version
/
5.0
.
2Mobile
/
8J2Safari
/
6533.18
.
5
AndroidN1
User
-
Agent:Mozilla
/
5.0
(Linux;U;Android2.
3.7
;en
-
us;NexusOneBuild
/
FRF91)AppleWebKit
/
533.1
(KHTML,likeGecko)Version
/
4.0MobileSafari
/
533.1
AndroidQQ浏览器Forandroid
User
-
Agent:MQQBrowser
/
26Mozilla
/
5.0
(Linux;U;Android2.
3.7
;zh
-
cn;MB200Build
/
GRJ22;CyanogenMod
-
7
)AppleWebKit
/
533.1
(KHTML,likeGecko)Version
/
4.0MobileSafari
/
533.1
AndroidOperaMobile
User
-
Agent:Opera
/
9.80
(Android2.
3.4
;Linux;OperaMobi
/
build
-
1107180945
;U;en
-
GB)Presto
/
2.8
.
149Version
/
11.10
AndroidPadMotoXoom
User
-
Agent:Mozilla
/
5.0
(Linux;U;Android3.
0
;en
-
us;XoomBuild
/
HRI39)AppleWebKit
/
534.13
(KHTML,likeGecko)Version
/
4.0Safari
/
534.13
BlackBerry
User
-
Agent:Mozilla
/
5.0
(BlackBerry;U;BlackBerry9800;en)AppleWebKit
/
534.1
+
(KHTML,likeGecko)Version
/
6.0
.
0.337MobileSafari
/
534.1
+
WebOSHPTouchpad
User
-
Agent:Mozilla
/
5.0
(hp
-
tablet;Linux;hpwOS
/
3.0
.
0
;U;en
-
US)AppleWebKit
/
534.6
(KHTML,likeGecko)wOSBrowser
/
233.70Safari
/
534.6TouchPad
/
1.0
NokiaN97
User
-
Agent:Mozilla
/
5.0
(SymbianOS
/
9.4
;Series60
/
5.0NokiaN97
-
1
/
20.0
.
019
;Profile
/
MIDP
-
2.1Configuration
/
CLDC
-
1.1
)AppleWebKit
/
525
(KHTML,likeGecko)BrowserNG
/
7.1
.
18124
WindowsPhoneMango
User
-
Agent:Mozilla
/
5.0
(compatible;MSIE9.
0
;WindowsPhoneOS7.
5
;Trident
/
5.0
;IEMobile
/
9.0
;HTC;Titan)
UC无
User
-
Agent:UCWEB7.
0.2
.
37
/
28
/
999
UC标准
User
-
Agent:NOKIA5700
/
UCWEB7.
0.2
.
37
/
28
/
999
UCOpenwave
User
-
Agent:Openwave
/
UCWEB7.
0.2
.
37
/
28
/
999
UCOpera
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE6.
0
;)Opera
/
UCWEB7.
0.2
.
37
/
28
/
999
我们用的时候直接复制即可,放到headers里的对应User-Agent参数
UserAgent的两种添加方法
1 直接定义一个headers字典,然后传递给Request类来实例化一个对象,然后在传给urlopen,格式如下:
1
2
3
4
5
6
7
8
9
10
|
from urllib import request url = 'http://baidu.com' headers = { 'User-Agent' : 'Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit/533.17.9(KHTML,likeGecko)Version/5.0.2Mobile/8J2Safari/6533.18.5' } req = request.Request(url,headers = headers) response = request.urlopen(req) print (response.read().decode()) |
2.使用add_header()方法
1
2
3
4
5
6
7
8
9
|
from urllib import request url = 'http://baidu.com' req = request.Request(url) req.add_header( 'User-Agent' , 'Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit/533.17.9(KHTML,likeGecko)Version/5.0.2Mobile/8J2Safari/6533.18.5' ) response = request.urlopen(req) print (response.read().decode()) |
python爬虫User Agent用户代理的更多相关文章
- python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
- Python 爬虫的工具列表 附Github代码下载链接
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
- Python 爬虫的工具列表大全
Python 爬虫的工具列表大全 这个列表包含与网页抓取和数据处理的Python库.网络 通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pyc ...
- Python 爬虫入门实战
1. 前言 首先自我介绍一下,我是一个做 Java 的开发人员,从今年下半年开始,一直在各大技术博客网站发表自己的一些技术文章,差不多有几个月了,之前在 cnblog 博客园加了网站统计代码,看到每天 ...
- Python 爬虫的工具列表
Python 爬虫的工具列表 这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycur ...
- Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口 相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
- 23个Python爬虫开源项目代码,让你一次学个够
今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号 ...
- Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
- Python爬虫开源项目代码,爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等 代码整理
作者:SFLYQ 今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [ ...
随机推荐
- echarts - 折线图 - 每秒刷新数据并显示
function randomData() { now = new Date(+now + oneDay); value = value + Math.random() * 21 - 10; var ...
- Anaconda3(5-1)程序编辑器 自带的spyder
1装好后自带spyder编辑器 2 打开软件 3 每次程序需要制定anaconda3中创建的虚拟环境对应 的python版本的路径 例如在我的电脑我创建了两个环境 而我的pytorch安装在pytho ...
- [FJOI2018]所罗门的宝藏
大概是最后一篇题解,其实只是想颓废一下打个故事 据古代传说记载,所罗门王即是智慧的代表,又是财富的象征.他建立了强大而富有的国家,聚集了大批的黄金象牙和钻石,并把这些价值连城的珍宝藏在一个神秘的地方, ...
- 【luoguP1382】楼房
题目描述 离散化,线段树维护区间修改,发现询问都是单点的\(max\),不妨把标记留在点上,不用下传,查询时取个\(max\)就可以了 #include<algorithm> #inclu ...
- Python、Spyder的环境搭建
有什么不对欢迎大家指出,一起交流啊,只针对Windows!!!!(苹果买不起...)Python安装的话2.7版本和3.6版本都可以,虽然2.7比较全面,但还是建议安装3.6,这里以3.6为例进行介绍 ...
- base64和Blob互相转换
1.base64转blob(二进制数据) /** * 将以base64的图片url数据转换为Blob * @param urlData 用url方式表示的base64图片数据 */ functio ...
- [原创]Emmagee V2.4工具使用介绍
[原创]Emmagee V2.4工具使用介绍 1 Emmagee 介绍 Emmagee 是网易杭州研究院 QA团队开发的一款简单易上手的Android性能监控App,主要用于监控单个App的CPU.内 ...
- SKF密码设备研究
SKF介绍 SKF接口是国密标准中智能密码钥匙的C语言应用开发接口标准,目前很多国内密码密码设备厂商都为其产品提供了SKF接口的开发包.开发者可以通过统一的SKF接口开发密码应用,访问来自不同设备供应 ...
- jquery设置bootstrap-select的默认选中值
<select id="mSelect"></select> $("#mSelect").val(["1",&quo ...
- winform自定义分页控件
1.控件代码: public partial class PagerControl : UserControl { #region 构造函数 public PagerControl() { Initi ...