python爬虫User Agent用户代理
UserAgent简介
UserAgent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,UserAgent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;例如用手机访问谷歌和电脑访问是不一样的,这些是谷歌根据访问者的UA来判断的。UA可以进行伪装。
浏览器的UA字串的标准格式:浏览器标识(操作系统标识;加密等级标识;浏览器语言)渲染引擎标识版本信息。但各个浏览器有所不同。
我们在做爬虫的时候,不是通过浏览器正常访问,所以会被很多网站禁止访问,这个时候我们就需要手动在headers里加上UA属性,来伪装成浏览器进行访问。
常见的UserAgent值
1.
PC端:
safari5.
1
–MAC
User
-
Agent:Mozilla
/
5.0
(Macintosh;U;IntelMacOSX10_6_8;en
-
us)AppleWebKit
/
534.50
(KHTML,likeGecko)Version
/
5.1Safari
/
534.50
safari5.
1
–Windows
User
-
Agent:Mozilla
/
5.0
(Windows;U;WindowsNT6.
1
;en
-
us)AppleWebKit
/
534.50
(KHTML,likeGecko)Version
/
5.1Safari
/
534.50
IE9.
0
User
-
Agent:Mozilla
/
5.0
(compatible;MSIE9.
0
;WindowsNT6.
1
;Trident
/
5.0
;
IE8.
0
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE8.
0
;WindowsNT6.
0
;Trident
/
4.0
)
IE7.
0
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT6.
0
)
IE6.
0
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE6.
0
;WindowsNT5.
1
)
Firefox4.
0.1
–MAC
User
-
Agent:Mozilla
/
5.0
(Macintosh;IntelMacOSX10.
6
;rv:
2.0
.
1
)Gecko
/
20100101Firefox
/
4.0
.
1
Firefox4.
0.1
–Windows
User
-
Agent:Mozilla
/
5.0
(WindowsNT6.
1
;rv:
2.0
.
1
)Gecko
/
20100101Firefox
/
4.0
.
1
Opera11.
11
–MAC
User
-
Agent:Opera
/
9.80
(Macintosh;IntelMacOSX10.
6.8
;U;en)Presto
/
2.8
.
131Version
/
11.11
Opera11.
11
–Windows
User
-
Agent:Opera
/
9.80
(WindowsNT6.
1
;U;en)Presto
/
2.8
.
131Version
/
11.11
Chrome17.
0
–MAC
User
-
Agent:Mozilla
/
5.0
(Macintosh;IntelMacOSX10_7_0)AppleWebKit
/
535.11
(KHTML,likeGecko)Chrome
/
17.0
.
963.56Safari
/
535.11
傲游(Maxthon)
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;Maxthon2.
0
)
腾讯TT
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;TencentTraveler4.
0
)
世界之窗(TheWorld)
2.x
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
)
世界之窗(TheWorld)
3.x
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;TheWorld)
搜狗浏览器
1.x
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;Trident
/
4.0
;SE2.XMetaSr1.
0
;SE2.XMetaSr1.
0
;.NETCLR2.
0.50727
;SE2.XMetaSr1.
0
)
360
浏览器
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;
360SE
)
Avant
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;AvantBrowser)
GreenBrowser
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
)
2
、移动设备端:
safariiOS4.
33
–iPhone
User
-
Agent:Mozilla
/
5.0
(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en
-
us)AppleWebKit
/
533.17
.
9
(KHTML,likeGecko)Version
/
5.0
.
2Mobile
/
8J2Safari
/
6533.18
.
5
safariiOS4.
33
–iPodTouch
User
-
Agent:Mozilla
/
5.0
(iPod;U;CPUiPhoneOS4_3_3likeMacOSX;en
-
us)AppleWebKit
/
533.17
.
9
(KHTML,likeGecko)Version
/
5.0
.
2Mobile
/
8J2Safari
/
6533.18
.
5
safariiOS4.
33
–iPad
User
-
Agent:Mozilla
/
5.0
(iPad;U;CPUOS4_3_3likeMacOSX;en
-
us)AppleWebKit
/
533.17
.
9
(KHTML,likeGecko)Version
/
5.0
.
2Mobile
/
8J2Safari
/
6533.18
.
5
AndroidN1
User
-
Agent:Mozilla
/
5.0
(Linux;U;Android2.
3.7
;en
-
us;NexusOneBuild
/
FRF91)AppleWebKit
/
533.1
(KHTML,likeGecko)Version
/
4.0MobileSafari
/
533.1
AndroidQQ浏览器Forandroid
User
-
Agent:MQQBrowser
/
26Mozilla
/
5.0
(Linux;U;Android2.
3.7
;zh
-
cn;MB200Build
/
GRJ22;CyanogenMod
-
7
)AppleWebKit
/
533.1
(KHTML,likeGecko)Version
/
4.0MobileSafari
/
533.1
AndroidOperaMobile
User
-
Agent:Opera
/
9.80
(Android2.
3.4
;Linux;OperaMobi
/
build
-
1107180945
;U;en
-
GB)Presto
/
2.8
.
149Version
/
11.10
AndroidPadMotoXoom
User
-
Agent:Mozilla
/
5.0
(Linux;U;Android3.
0
;en
-
us;XoomBuild
/
HRI39)AppleWebKit
/
534.13
(KHTML,likeGecko)Version
/
4.0Safari
/
534.13
BlackBerry
User
-
Agent:Mozilla
/
5.0
(BlackBerry;U;BlackBerry9800;en)AppleWebKit
/
534.1
+
(KHTML,likeGecko)Version
/
6.0
.
0.337MobileSafari
/
534.1
+
WebOSHPTouchpad
User
-
Agent:Mozilla
/
5.0
(hp
-
tablet;Linux;hpwOS
/
3.0
.
0
;U;en
-
US)AppleWebKit
/
534.6
(KHTML,likeGecko)wOSBrowser
/
233.70Safari
/
534.6TouchPad
/
1.0
NokiaN97
User
-
Agent:Mozilla
/
5.0
(SymbianOS
/
9.4
;Series60
/
5.0NokiaN97
-
1
/
20.0
.
019
;Profile
/
MIDP
-
2.1Configuration
/
CLDC
-
1.1
)AppleWebKit
/
525
(KHTML,likeGecko)BrowserNG
/
7.1
.
18124
WindowsPhoneMango
User
-
Agent:Mozilla
/
5.0
(compatible;MSIE9.
0
;WindowsPhoneOS7.
5
;Trident
/
5.0
;IEMobile
/
9.0
;HTC;Titan)
UC无
User
-
Agent:UCWEB7.
0.2
.
37
/
28
/
999
UC标准
User
-
Agent:NOKIA5700
/
UCWEB7.
0.2
.
37
/
28
/
999
UCOpenwave
User
-
Agent:Openwave
/
UCWEB7.
0.2
.
37
/
28
/
999
UCOpera
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE6.
0
;)Opera
/
UCWEB7.
0.2
.
37
/
28
/
999
我们用的时候直接复制即可,放到headers里的对应User-Agent参数
UserAgent的两种添加方法
1 直接定义一个headers字典,然后传递给Request类来实例化一个对象,然后在传给urlopen,格式如下:
1
2
3
4
5
6
7
8
9
10
|
from urllib import request url = 'http://baidu.com' headers = { 'User-Agent' : 'Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit/533.17.9(KHTML,likeGecko)Version/5.0.2Mobile/8J2Safari/6533.18.5' } req = request.Request(url,headers = headers) response = request.urlopen(req) print (response.read().decode()) |
2.使用add_header()方法
1
2
3
4
5
6
7
8
9
|
from urllib import request url = 'http://baidu.com' req = request.Request(url) req.add_header( 'User-Agent' , 'Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit/533.17.9(KHTML,likeGecko)Version/5.0.2Mobile/8J2Safari/6533.18.5' ) response = request.urlopen(req) print (response.read().decode()) |
python爬虫User Agent用户代理的更多相关文章
- python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
- Python 爬虫的工具列表 附Github代码下载链接
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
- Python 爬虫的工具列表大全
Python 爬虫的工具列表大全 这个列表包含与网页抓取和数据处理的Python库.网络 通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pyc ...
- Python 爬虫入门实战
1. 前言 首先自我介绍一下,我是一个做 Java 的开发人员,从今年下半年开始,一直在各大技术博客网站发表自己的一些技术文章,差不多有几个月了,之前在 cnblog 博客园加了网站统计代码,看到每天 ...
- Python 爬虫的工具列表
Python 爬虫的工具列表 这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycur ...
- Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口 相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
- 23个Python爬虫开源项目代码,让你一次学个够
今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号 ...
- Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
- Python爬虫开源项目代码,爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等 代码整理
作者:SFLYQ 今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [ ...
随机推荐
- 【oracle】处理锁表
查询锁表 select object_name,machine,s.sid,s.serial# from v$locked_object l,dba_objects o ,v$session swhe ...
- Pandas | 07 函数应用
要将自定义或其他库的函数应用于Pandas对象,有三个重要的方法,下面来讨论如何使用这些方法.使用适当的方法取决于函数应用于哪个层面(DataFrame,行或列或元素). 表合理函数应用:pipe() ...
- Ajax运用与分页
目录 django与ajax的分页处理 ajax + sweetAlert 实现再次确认: 批量数据插入 分页: django与ajax的分页处理 ajax + sweetAlert 实现再次确认: ...
- 详解手把手Maven搭建SpringMVC+Spring+MyBatis框架(超级详细版)
转载(https://www.jb51.net/article/130560.htm) SSM(Spring+SpringMVC+Mybatis),目前较为主流的企业级架构方案.标准的MVC设计模式, ...
- 深入理解 HTTP/1.x、HTTP/2 和 HTTPS
很多站长可能到现在都没有理解 HTTP/1.x.HTTP/2 和 HTTPS 之间的区别和关系吧?说实话,明月也是“一知半解”的水准而已,今天看到了这篇文章感觉总结还算是比较全面,特此分享出来给大家就 ...
- ASP.NET Core WebApi基于Redis实现Token接口安全认证
一.课程介绍 明人不说暗话,跟着阿笨一起玩WebApi!开发提供数据的WebApi服务,最重要的是数据的安全性.那么对于我们来说,如何确保数据的安全将会是需要思考的问题.在ASP.NET WebSer ...
- spark 资源动态分配
'spark.shuffle.service.enabled': 'true', 'spark.dynamicAllocation.enabled': 'false', , , , 'spark.sq ...
- 2、word插入目录、图/表
一.word插入目录 依次对每个标题在“段落”中进行大纲级别选择. 光标定位于目录生成的页面,再“引用”->“目录”->选择“自动目录1/2”,则可自动生成目录.若目录有所更改,则可选择“ ...
- 【chromium】 Chromium OS的oom机制
前一段时间,运行在Chromium OS上的一个相机应用经常会自己崩溃,进程戛然而止,测试过程中发现使用的内存以肉眼可见的内存增长,当增长到1G左右,应用窗口突然消失,虽然原因不明,但是能猜到个大概, ...
- 百度前端技术学院task16源代码
欢迎访问我的github:huanshen 做这道题目的时候遇到了很多困难. 1.怎么给空对象添加数据,愣是不知道从哪里下手:遍历对象,一个个输出操作: 2.中英文的正则表达式不知道,赶紧去百度: 3 ...