不存在的!python说不给数据的浏览器是不存在的!
有时候我们些代码是总发此疑惑?
为什么别人采集 xx 网站的时候能成功,而我却总是不返回给数据
出现这种原因时往往是我们没有给够伪装, 被识别了出来~
就像人,你出门肯定是要穿衣服的对不,如果你不穿!
走在外面,肯定是最显眼的一个,不抓你抓谁
还有一种就是明明我之前运行成功了,为什么我现在再次运行时就不行了呢~
而且还甩一句话给我 “系统检测到您频繁访问,请稍后再来”
好啦!现在咋们正经的来介绍一下面对此种情况该如何处理~
要会伪装,要想想看,人是怎么访问网站的
这次我们来说说伪装 Header ,当你要去爬取某个网站的数据的时候
你要想想看,如果是别人爬取你的数据,你会做什么操作
你是不是也不想,让别人随随便便就疯狂请求你的服务器
你是不是也会,采取一定的措施
比如,我有一个网站,你分析到了我的地址
当你想要通过 python 来爬取的时候…
这边我来写一个简单的可以被请求的例子
from flask import Flask
app = Flask(__name__)
@app.route('/getInfo')
def hello_world():
return "这里假装有很多数据"
if __name__ == "__main__":
app.run(debug=True)
ok ,假设你现在分析到了我的地址了,
也就是可以通过 /getInfo 就可以获取到数据了
你感觉很爽,就开始请求了
url = 'http://127.0.0.1:5000/getInfo'
response = requests.get(url)
print(response.text)
没错,这个时候你确实获取到数据了
但是!我觉得有点不对劲了,想看看请求的 header 信息
@app.route('/getInfo')
def hello_world():
print(request.headers)
return "这里假装有很多数据"
if __name__ == "__main__":
app.run(debug=True)
结果看到的 headers 信息是这样的
Host: 127.0.0.1:5000
User-Agent: python-requests/2.21.0
Accept-Encoding: gzip, deflate
Accept: */*
Connection: keep-alive
User-Agent: python-requests/2.21.0
居然使用 python 的库来请求,你说我不封你封谁呢?
所以我这个时候进行判断,就获取不到数据了
@app.route('/getInfo')
def hello_world():
if(str(request.headers.get('User-Agent')).startswith('python')):
return "系统检测到您频繁访问,请稍后再来"
else:
return "这里假装有很多数据"
欢迎加入白嫖Q群:660193417 ###
if __name__ == "__main__":
app.run(debug=True)
你这个时候的请求
if __name__ == '__main__':
url = 'http://127.0.0.1:5000/getInfo'
response = requests.get(url)
print(response.text)
得到的结果就是
“系统检测到您频繁访问,请稍后再来”
你已经在我面前暴露了,想重新再来,那么怎么办呢?
伪装自己呗,python 不可以访问
浏览器可以访问呀,所以你可以修改你的请求头
先在浏览器访问,然后在抓取数据的时候获取到 Header 数据
当然你也可以使用 Chrome 的控制面板获取 Header
有了 Header 信息之后,就可以使用 requests模块轻松获取
恩,现在的你学会假装自己是浏览器了
欢迎加入白嫖Q群:660193417 ###
if __name__ == '__main__':
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
url = 'http://127.0.0.1:5000/getInfo'
response = requests.get(url,headers=headers)
print(response.text)
再获取一次可以发现,返回的是
这里假装有很多数据
ok,你又获取到数据了
好啦,这篇文章就到这里啦~对你有帮助就点赞收藏一下吧!
我是小熊猫,咱下篇文章见
不存在的!python说不给数据的浏览器是不存在的!的更多相关文章
- 使用Python解析JSON数据的基本方法
这篇文章主要介绍了使用Python解析JSON数据的基本方法,是Python入门学习中的基础知识,需要的朋友可以参考下: ----------------------------------- ...
- python matplotlib plot 数据中的中文无法正常显示的解决办法
转发自:http://blog.csdn.net/laoyaotask/article/details/22117745?utm_source=tuicool python matplotlib pl ...
- Python/Numpy大数据编程经验
Python/Numpy大数据编程经验 1.边处理边保存数据,不要处理完了一次性保存.不然程序跑了几小时甚至几天后挂了,就啥也没有了.即使部分结果不能实用,也可以分析程序流程的问题或者数据的特点. ...
- Windows下Python读取GRIB数据
之前写了一篇<基于Python的GRIB数据可视化>的文章,好多博友在评论里问我Windows系统下如何读取GRIB数据,在这里我做一下说明. 一.在Windows下Python为什么无法 ...
- 为什么说Python 是大数据全栈式开发语言
欢迎大家访问我的个人网站<刘江的博客和教程>:www.liujiangblog.com 主要分享Python 及Django教程以及相关的博客 交流QQ群:453131687 原文链接 h ...
- 用Python浅析股票数据
用Python浅析股票数据 本文将使用Python来可视化股票数据,比如绘制K线图,并且探究各项指标的含义和关系,最后使用移动平均线方法初探投资策略. 数据导入 这里将股票数据存储在stockData ...
- Python读取JSON数据,并解决字符集不匹配问题
今天来谈一谈Python解析JSON数据,并写入到本地文件的一个小例子. – 思路如下 从一个返回JSON天气数据的网站获取到目标JSON数据串 使用Python解析出需要的部分 写入到本地文件,供其 ...
- 使用 python 处理 nc 数据
前言 这两天帮一个朋友处理了些 nc 数据,本以为很简单的事情,没想到里面涉及到了很多的细节和坑,无论是"知难行易"还是"知易行难"都不能充分的说明问题,还是& ...
- 【转】Python——plot可视化数据,作业8
Python——plot可视化数据,作业8(python programming) subject1k和subject1v的形状相同 # -*- coding: utf-8 -*- import sc ...
随机推荐
- python基础练习题(题目 画圈,学用circle画圆形。)
day37 --------------------------------------------------------------- 实例056:画圈 题目 画图,学用circle画圆形. 分析 ...
- SQL Server 2019 异常服务没有及时响应启动或控制请求
安装到最后一步时发生了如下错误 解决办法: 1.使用管理员打开cmd窗口,输入以下命令 net localgroup administrators "NETWORK SERVICE" ...
- Synchronized锁及其膨胀
一.序言 在并发编程中,synchronized锁因其使用简单,在线程间同步被广泛应用.下面对其原理及锁升级过程进行探究. 二.如何使用 1.修饰实例方法 当实例方法被synchronized修饰时, ...
- Metalama简介4.使用Fabric操作项目或命名空间
使用基于Roslyn的编译时AOP框架来解决.NET项目的代码复用问题 Metalama简介1. 不止是一个.NET跨平台的编译时AOP框架 Metalama简介2.利用Aspect在编译时进行消除重 ...
- cookie、sessionStorage、localStorage的区别?
数据存储位置 三者都是存储在游览器本地的 区别在于cookie是服务器端写入的,而sessionStorage.localStorage是由前端写入的 生命周期 cookie的生命周期是由服务器端写入 ...
- Win10系统链接蓝牙设备
1. 进入控制面板,选择 设备 2. 进入设备界面,删除已有蓝牙,如果蓝牙耳机已经链接其他设备,先断开链接 3. 点击添加蓝牙或其他设备 4. 选择蓝牙,选择你的蓝牙耳机名称
- 四月总结&五月计划
四月总结 1. 主要任务 <Effective C++>书 ① 进展: 看完了30讲(共55讲),从4月20号开始居家办公,书落在公司了,一直到昨天29号才去园区上班,耽搁了.30讲之前的 ...
- Docker系列教程05-Docker数据卷(Data Volume)学习
引言 在Docker中,容器的数据读写默认发生在容器的存储层,当容器被删除时其上的数据将会丢失.要想实现数据的持久化,需要将数据从宿主机挂载到容器中.目前Docker提供了三种方式将数据从宿主机挂载到 ...
- JDBC:加载数据库驱动、连接数据库(详细讲解)
加载数据库驱动: 1)由于Java是一个纯面向对象语言,任何事物在其中都必须抽象成类或者类对象,数据库也不例外,JDBC同样也把数据库抽象成面向对象的结构: 2)JDBC将整个数据库驱动器在底层抽象成 ...
- Spring按业务模块输出日志到不同的文件
一.背景 在我们开发的过程中,可能存在如下情况: 1.有些时候我们需要调用第三方的接口,一般情况下,调用接口,我们都会记录请求的入参和响应的.如果我们自己系统的日志和第三方的日志混合到一个日志文件中, ...