python爬虫User Agent用户代理
UserAgent简介
UserAgent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,UserAgent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;例如用手机访问谷歌和电脑访问是不一样的,这些是谷歌根据访问者的UA来判断的。UA可以进行伪装。
浏览器的UA字串的标准格式:浏览器标识(操作系统标识;加密等级标识;浏览器语言)渲染引擎标识版本信息。但各个浏览器有所不同。
我们在做爬虫的时候,不是通过浏览器正常访问,所以会被很多网站禁止访问,这个时候我们就需要手动在headers里加上UA属性,来伪装成浏览器进行访问。
常见的UserAgent值
1.
PC端:
safari5.
1
–MAC
User
-
Agent:Mozilla
/
5.0
(Macintosh;U;IntelMacOSX10_6_8;en
-
us)AppleWebKit
/
534.50
(KHTML,likeGecko)Version
/
5.1Safari
/
534.50
safari5.
1
–Windows
User
-
Agent:Mozilla
/
5.0
(Windows;U;WindowsNT6.
1
;en
-
us)AppleWebKit
/
534.50
(KHTML,likeGecko)Version
/
5.1Safari
/
534.50
IE9.
0
User
-
Agent:Mozilla
/
5.0
(compatible;MSIE9.
0
;WindowsNT6.
1
;Trident
/
5.0
;
IE8.
0
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE8.
0
;WindowsNT6.
0
;Trident
/
4.0
)
IE7.
0
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT6.
0
)
IE6.
0
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE6.
0
;WindowsNT5.
1
)
Firefox4.
0.1
–MAC
User
-
Agent:Mozilla
/
5.0
(Macintosh;IntelMacOSX10.
6
;rv:
2.0
.
1
)Gecko
/
20100101Firefox
/
4.0
.
1
Firefox4.
0.1
–Windows
User
-
Agent:Mozilla
/
5.0
(WindowsNT6.
1
;rv:
2.0
.
1
)Gecko
/
20100101Firefox
/
4.0
.
1
Opera11.
11
–MAC
User
-
Agent:Opera
/
9.80
(Macintosh;IntelMacOSX10.
6.8
;U;en)Presto
/
2.8
.
131Version
/
11.11
Opera11.
11
–Windows
User
-
Agent:Opera
/
9.80
(WindowsNT6.
1
;U;en)Presto
/
2.8
.
131Version
/
11.11
Chrome17.
0
–MAC
User
-
Agent:Mozilla
/
5.0
(Macintosh;IntelMacOSX10_7_0)AppleWebKit
/
535.11
(KHTML,likeGecko)Chrome
/
17.0
.
963.56Safari
/
535.11
傲游(Maxthon)
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;Maxthon2.
0
)
腾讯TT
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;TencentTraveler4.
0
)
世界之窗(TheWorld)
2.x
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
)
世界之窗(TheWorld)
3.x
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;TheWorld)
搜狗浏览器
1.x
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;Trident
/
4.0
;SE2.XMetaSr1.
0
;SE2.XMetaSr1.
0
;.NETCLR2.
0.50727
;SE2.XMetaSr1.
0
)
360
浏览器
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;
360SE
)
Avant
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;AvantBrowser)
GreenBrowser
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
)
2
、移动设备端:
safariiOS4.
33
–iPhone
User
-
Agent:Mozilla
/
5.0
(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en
-
us)AppleWebKit
/
533.17
.
9
(KHTML,likeGecko)Version
/
5.0
.
2Mobile
/
8J2Safari
/
6533.18
.
5
safariiOS4.
33
–iPodTouch
User
-
Agent:Mozilla
/
5.0
(iPod;U;CPUiPhoneOS4_3_3likeMacOSX;en
-
us)AppleWebKit
/
533.17
.
9
(KHTML,likeGecko)Version
/
5.0
.
2Mobile
/
8J2Safari
/
6533.18
.
5
safariiOS4.
33
–iPad
User
-
Agent:Mozilla
/
5.0
(iPad;U;CPUOS4_3_3likeMacOSX;en
-
us)AppleWebKit
/
533.17
.
9
(KHTML,likeGecko)Version
/
5.0
.
2Mobile
/
8J2Safari
/
6533.18
.
5
AndroidN1
User
-
Agent:Mozilla
/
5.0
(Linux;U;Android2.
3.7
;en
-
us;NexusOneBuild
/
FRF91)AppleWebKit
/
533.1
(KHTML,likeGecko)Version
/
4.0MobileSafari
/
533.1
AndroidQQ浏览器Forandroid
User
-
Agent:MQQBrowser
/
26Mozilla
/
5.0
(Linux;U;Android2.
3.7
;zh
-
cn;MB200Build
/
GRJ22;CyanogenMod
-
7
)AppleWebKit
/
533.1
(KHTML,likeGecko)Version
/
4.0MobileSafari
/
533.1
AndroidOperaMobile
User
-
Agent:Opera
/
9.80
(Android2.
3.4
;Linux;OperaMobi
/
build
-
1107180945
;U;en
-
GB)Presto
/
2.8
.
149Version
/
11.10
AndroidPadMotoXoom
User
-
Agent:Mozilla
/
5.0
(Linux;U;Android3.
0
;en
-
us;XoomBuild
/
HRI39)AppleWebKit
/
534.13
(KHTML,likeGecko)Version
/
4.0Safari
/
534.13
BlackBerry
User
-
Agent:Mozilla
/
5.0
(BlackBerry;U;BlackBerry9800;en)AppleWebKit
/
534.1
+
(KHTML,likeGecko)Version
/
6.0
.
0.337MobileSafari
/
534.1
+
WebOSHPTouchpad
User
-
Agent:Mozilla
/
5.0
(hp
-
tablet;Linux;hpwOS
/
3.0
.
0
;U;en
-
US)AppleWebKit
/
534.6
(KHTML,likeGecko)wOSBrowser
/
233.70Safari
/
534.6TouchPad
/
1.0
NokiaN97
User
-
Agent:Mozilla
/
5.0
(SymbianOS
/
9.4
;Series60
/
5.0NokiaN97
-
1
/
20.0
.
019
;Profile
/
MIDP
-
2.1Configuration
/
CLDC
-
1.1
)AppleWebKit
/
525
(KHTML,likeGecko)BrowserNG
/
7.1
.
18124
WindowsPhoneMango
User
-
Agent:Mozilla
/
5.0
(compatible;MSIE9.
0
;WindowsPhoneOS7.
5
;Trident
/
5.0
;IEMobile
/
9.0
;HTC;Titan)
UC无
User
-
Agent:UCWEB7.
0.2
.
37
/
28
/
999
UC标准
User
-
Agent:NOKIA5700
/
UCWEB7.
0.2
.
37
/
28
/
999
UCOpenwave
User
-
Agent:Openwave
/
UCWEB7.
0.2
.
37
/
28
/
999
UCOpera
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE6.
0
;)Opera
/
UCWEB7.
0.2
.
37
/
28
/
999
我们用的时候直接复制即可,放到headers里的对应User-Agent参数
UserAgent的两种添加方法
1 直接定义一个headers字典,然后传递给Request类来实例化一个对象,然后在传给urlopen,格式如下:
1
2
3
4
5
6
7
8
9
10
|
from urllib import request url = 'http://baidu.com' headers = { 'User-Agent' : 'Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit/533.17.9(KHTML,likeGecko)Version/5.0.2Mobile/8J2Safari/6533.18.5' } req = request.Request(url,headers = headers) response = request.urlopen(req) print (response.read().decode()) |
2.使用add_header()方法
1
2
3
4
5
6
7
8
9
|
from urllib import request url = 'http://baidu.com' req = request.Request(url) req.add_header( 'User-Agent' , 'Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit/533.17.9(KHTML,likeGecko)Version/5.0.2Mobile/8J2Safari/6533.18.5' ) response = request.urlopen(req) print (response.read().decode()) |
python爬虫User Agent用户代理的更多相关文章
- python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
- Python 爬虫的工具列表 附Github代码下载链接
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
- Python 爬虫的工具列表大全
Python 爬虫的工具列表大全 这个列表包含与网页抓取和数据处理的Python库.网络 通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pyc ...
- Python 爬虫入门实战
1. 前言 首先自我介绍一下,我是一个做 Java 的开发人员,从今年下半年开始,一直在各大技术博客网站发表自己的一些技术文章,差不多有几个月了,之前在 cnblog 博客园加了网站统计代码,看到每天 ...
- Python 爬虫的工具列表
Python 爬虫的工具列表 这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycur ...
- Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口 相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
- 23个Python爬虫开源项目代码,让你一次学个够
今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号 ...
- Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
- Python爬虫开源项目代码,爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等 代码整理
作者:SFLYQ 今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [ ...
随机推荐
- GCN总结
一.GCN简介 GNN模型主要研究图节点的表示(Graph Embedding),图边结构预测任务和图的分类问题,后两个任务也是基于Graph Embedding展开的.目前论文重点研究网络的可扩展性 ...
- libpcap工具包使用go交叉编译开发android
命令使用 libpcap交叉编译 cd /tmpwget http://www.tcpdump.org/release/libpcap-1.8.1.tar.gztar xvf libpcap-1.8. ...
- 关于python中lambda 函数使用小结
例子: 如果定义普通函数,一般都是这样写: def:ds(x): return 2*x+1 调用即: ds(5) 如果用lambda函数就是这么写,就是一句话: g =lambda x:2*x+1 调 ...
- python输出带颜色字体
方法1: (参考https://suixinblog.cn/2019/01/print-colorful.html) 使用Python中自带的print输出带有颜色或者背景的字符串 书写语法 prin ...
- [RN] React Native 获取地理位置
React Native 获取地理位置 实现原理: 1.用 navigator.geolocation.getCurrentPosition 获取到坐标信息 2.调用 高德地图 接口,解析位置数据 ...
- C++标准库中的std::endl究竟做了什么?
先抓出std::endl的源代码: /** * @file ostream * @brief Write a newline and flush the stream. * * This m ...
- keepalived 配置文件解析
! Configuration File for keepalived global_defs { #全局定义部分 notification_email { #设置报警邮件地址,可设置多个 acass ...
- [HeadFrist-HTMLCSS学习笔记]第五章认识媒体:给网页添加图像
[HeadFrist-HTMLCSS学习笔记]第五章认识媒体:给网页添加图像 干货 JPEG.PNG.GIF有何不同 JPEG适合连续色调图像,如照片:不支持透明度:不支持动画:有损格式 PNG适合单 ...
- python对图片批量命名
深度学习中经常会有批量对图片进行重命名,从网上看到的资料整理一下,方便以后查看. import os class BatchRename(): ''' 批量重命名文件夹中的图片文件 ''' def _ ...
- 【视频开发】IR-CUT作用
自然界存在着各种波长的光线,通过折射人眼能看到不同颜色的光线,这就是光线的波长不同所导致的.其实还有许多光线是人眼看不到的,人眼识别光线的波长范围在320nm-760nm之间,超过760nm的光线人眼 ...