Python实战：如何隐藏自己的爬虫身份

使用爬虫访问网站，需要尽可能的隐藏自己的身份，以防被服务器屏蔽，在工作工程中，我们有2种方式来实现这一目的，分别是延时访问和动态代理，接下来我们会对这两种方式进行讲解

1、延时访问

见名之意，延时访问就是在访问网站时设置一个访问周期，每隔几秒钟访问一次，这样的方式更像是人为访问网站






import time





import urllib.request





 





cnt = 0





#隐藏自己爬虫的身份的第一种策略是设置访问周期，使得程序更像是人为访问的





while True: #每隔5秒钟访问一次百度网





    url = "https://www.baidu.com" #设置url地址





    param = {} #设置参数，参数是字典





    param = urllib.parse.urlencode(param).encode('utf_8') #将参数以utf-8编码方式来编码





    





    req = urllib.request.Request(url, param)





    #设置header的User-Agent属性，模拟该请求是由狐火浏览器发送的，也就是说欺骗服务器是人为发送的并未程序发送的





    req.add_header("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:53.0) Gecko/20100101 Firefox/53.0")





    response = urllib.request.urlopen(req) #访问网络





    





    html = response.read() #读取响应的结果





    result = html.decode("utf-8") #按照utf-8编码来进行解码





    if result != "":





        cnt += 1





    print("第%s次攻击百度网" %cnt)





    time.sleep(5) #程序睡眠5秒钟

运行结果：

每隔5秒钟访问一次百度网

2、动态代理

使用代理服务器来访问网站，这种方法非常霸道，可以模拟出不同的服务器访问网站，也是最为推荐的一种方式，我们可以在百度网上查找免费的代理服务器IP






import urllib.request





import random





 





ipList = ['119.6.144.73:81', '183.203.208.166:8118', '111.1.32.28:81'] #定义多个代理IP，代理IP可以在网上搜免费的





cnt = 0





#隐藏自己爬虫的身份的第二种策略是使用代理，意思是模拟多个服务器访问





while True: #使用代理服务器不停的访问百度网





    proxy_support = urllib.request.ProxyHandler({'http':random.choice(ipList)}) #定义一个代理对象，使用随机的ip





    





    opener = urllib.request.build_opener(proxy_support)





    opener.add_handlers = [("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:53.0) Gecko/20100101 Firefox/53.0")]





    urllib.request.install_opener(opener)





    





    response = urllib.request.urlopen("https://www.baidu.com") #访问网络





    





    html = response.read() #读取响应的结果





    result = html.decode("utf-8") #按照utf-8编码来进行解码





    if result != "":





        cnt += 1





    print("第%s次攻击百度网" %cnt)

运行结果：

不停的攻击百度网

Python实战：如何隐藏自己的爬虫身份的更多相关文章

Python实战：Python爬虫学习教程，获取电影排行榜
Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习 ...
零基础入门Python实战:四周实现爬虫网站 Django项目视频教程
点击了解更多Python课程>>> 零基础入门Python实战:四周实现爬虫网站 Django项目视频教程适用人群: 即将毕业的大学生,工资低工作重的白领,渴望崭露头角的职场新人, ...
Python实战：美女图片下载器，海量图片任你下载
Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习 ...
再一波Python实战项目列表
前言: 近几年Python可谓是大热啊,很多人都纷纷投入Python的学习中,以前我们实验楼总结过多篇Python实战项目列表,不但有用还有趣,最主要的是咱们实验楼不但有详细的开发教程,更有在线开发环 ...
(转)Python新手写出漂亮的爬虫代码2——从json获取信息
https://blog.csdn.net/weixin_36604953/article/details/78592943 Python新手写出漂亮的爬虫代码2——从json获取信息好久没有写关于爬 ...
Python实战之自己主动化评论
Python实战之自己主动化评论玩csdn博客一个多月了,渐渐发现了一些有意思的事,常常会有人用相同的评论到处刷.不知道是为了加没什么用的积分,还是纯粹为了表达楼主好人.那么问题来了,这种无聊的事情 ...
python scrapy版极客学院爬虫V2
python scrapy版极客学院爬虫V2 1 基本技术使用scrapy 2 这个爬虫的难点是 Request中的headers和cookies 尝试过好多次才成功(模拟登录),否则只能抓免费课 ...
zeromq 学习和python实战
参考文档: 官网 http://zeromq.org/ http://www.cnblogs.com/rainbowzc/p/3357594.html 原理解读 zeromq只是一层针对socke ...
【python】一个简单的贪婪爬虫
这个爬虫的作用是,对于一个给定的url,查找页面里面所有的url连接并依次贪婪爬取主要需要注意的地方: 1.lxml.html.iterlinks() 可以实现对页面所有url的查找 2.获取页面 ...

随机推荐

【SSH学习笔记】—从配置Struts1环境到简单实例
以下我将从一个简单点的计算器实例,介绍struts1的环境配置,以及其重要的两个核心类:ActionForm和Action 简单计算器实现思路: 1.提供一个输入界面,输入两个数字和运算符(+.-. ...
ubuntu-工作环境配置（van）
我们平时用到的工具主要vim,retag_app,提交代码,以及一些常用命令,他们主要对应一下几个文件 1.vim ->.vimrc 2.代码提交->gitconfig 3.常用命令-&g ...
Redis原理（一）
基础和应用 1.Redis是远程调用技术的首字母缩写. 2.Redis可以用来做什么? Redis可以用来做缓存. 分布式锁 3.Redis的应用举例记录帖子的点赞数.评论数和点击数.(使用HASH ...
chrome 的input 上传响应慢问题解决方案
<input type="file" accept="image/png,image/jpeg,image/gif" class="form-c ...
BZOJ——T2190: [SDOI2008]仪仗队
Time Limit: 10 Sec Memory Limit: 259 MBSubmit: 3216 Solved: 2075[Submit][Status][Discuss] http://w ...
并发，three
引言很久没有跟大家再聊聊并发了,今天LZ闲来无事,跟大家再聊聊并发.由于时间过去的有点久,因此LZ就不按照常理出牌了,只是把自己的理解记录在此,如果各位猿友觉得有所收获,就点个推荐或者留言激励下LZ ...
Node知识总结
一. 伪装URL-SEO 伪URL重写把一个动态页面的地址重写为静态页面的地址,为了方便网站的SEO优化真实地址:http://item.jd.com/detail.php?id=12261336 ...
微服务实践（五）：微服务的事件驱动数据管理 - DockOne.io
原文:微服务实践(五):微服务的事件驱动数据管理 - DockOne.io [编者的话]本文是使用微服务创建应用系列的第五篇文章.第一篇文章介绍了微服务架构模式,并且讨论了使用微服务的优缺点:第二和第 ...
【Codeforces Round #442 (Div. 2) B】Nikita and string
[链接] 我是链接,点我呀:) [题意] 在这里输入题意 [题解] 枚举中间那一段从哪里开始.哪里结束就好注意为空的话,就全是a. 用前缀和优化一下. [代码] #include <bits/ ...
Apache与weblogic整合实战（独家研究）
用apache来处理外界的请求,再把请求转发给wls,这样就行突破wls express版本号的5用户限制详细配置例如以下 copy ${WLS_Server}/server/lib下的mod_wl ...

Python实战：如何隐藏自己的爬虫身份

Python实战：如何隐藏自己的爬虫身份的更多相关文章

随机推荐

热门专题