python爬虫headers设置后无效解决方案

此次遇到的是一个函数使用不熟练造成的问题，但有了分析工具后可以很快定位到问题（此处推荐一个非常棒的抓包工具fiddler）

正文如下：

在爬取某个app数据时（app上的数据都是由http请求的），用Fidder分析了请求信息，并把python的request header信息写在程序中进行请求数据

代码如下

import requests

url = 'http://xxx?startDate=2017-10-19&endDate=2017-10-19&pageIndex=1&limit=50&sort=datetime&order=desc'

headers={

    "Host":"xxx.com",

    "Connection": "keep-alive",

    "Accept": "application/json, text/javascript, */*; q=0.01",

    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.59 Safari/537.36",

    "X-Requested-With": "XMLHttpRequest",

    "Referer": "http://app.jg.eastmoney.com/html_Report/index.html",

    "Accept-Encoding": "gzip,deflate",

    "Accept-Language": "en-us,en",

    "Cookie":"xxx"

}

r = requests.get(url,headers)

print (r.text)

请求成功但是，返回的是

{"Id":"6202c187-2fad-46e8-b4c6-b72ac8de0142","ReturnMsg":"加载失败！"}

就是被发现不是正常请求被拦截了

然后我去Fidder中看刚才python发送请求的记录 #盖掉的两个部分分别是Host和URL，

然后查看请求详细信息的时候，请求头并没有加载进去，User-Agent就写着python-requests ! #请求头里的UA信息是java，python程序，有点反爬虫意识的网站、app都会拦截掉

Header详细信息如下

GET http://xxx?istartDate=2017-10-19&endDate=2017-10-19&pageIndex=1&limit=50&sort=datetime&order=desc
　　&Host=xxx.com
　　&Connection=keep-alive
　　&Accept=application%2Fjson%2C+text%2Fjavascript%2C+%2A%2F%2A%3B+q%3D0.01
　　&User-Agent=Mozilla%2F5.0+%28Windows+NT+6.1%3B+WOW64%29+AppleWebKit%2F537.36+%28KHTML%2C+like+Gecko%29+Chrome%2F29.0.1547.59+Safari%2F537.36
　　&X-Requested-With=XMLHttpRequest
　　&Referer=xxx
　　&Accept-Encoding=gzip%2Cdeflate
　　&Accept-Language=en-us%2Cen
　　&Cookie=xxx
HTTP/1.1

Host: xxx.com

User-Agent: python-requests/2.18.4

Accept-Encoding: gzip, deflate

Accept: */*

Connection: keep-alive

HTTP/1.1 200 OK

Server: nginx/1.2.2

Date: Sat, 21 Oct 2017 06:07:21 GMT

Content-Type: application/json; charset=utf-8

Content-Length: 75

Connection: keep-alive

Cache-Control: private

X-AspNetMvc-Version: 5.2

X-AspNet-Version: 4.0.30319

X-Powered-By: ASP.NET

一开始还没发现，等我把请求的URL信息全部读完，才发现程序把我的请求头信息当做参数放到了URL里

那就是我请求的时候request函数Header信息参数用错了

又重新看了一下Requests库的Headers参数使用方法，发现有一行代码写错了，在使用request.get（）方法时要把参数 “headers =“写出来

更改如下：

import requests

url = 'http://xxx?startDate=2017-10-19&endDate=2017-10-19&pageIndex=1&limit=50&sort=datetime&order=desc'

headers={

    "Host":"xxx.com",

    "Connection": "keep-alive",

    "Accept": "application/json, text/javascript, */*; q=0.01",

    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.59 Safari/537.36",

    "X-Requested-With": "XMLHttpRequest",

    "Referer": "http://app.jg.eastmoney.com/html_Report/index.html",

    "Accept-Encoding": "gzip,deflate",

    "Accept-Language": "en-us,en",

    "Cookie":"xxx"

}

r = requests.get(url,headers=headers)

然后去查看Fiddler中的请求，

此次python中的请求头已经正常了，请求详细信息如下

GET http://xxx?startDate=2017-10-19&endDate=2017-10-19&pageIndex=1&limit=50&sort=datetime&order=desc HTTP/1.1

User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.59 Safari/537.36

Accept-Encoding: gzip,deflate

Accept: application/json, text/javascript, */*; q=0.01

Connection: keep-alive

Host: xxx.com

X-Requested-With: XMLHttpRequest

Referer: http://xxx

Accept-Language: en-us,en

Cookie: xxx

HTTP/1.1 200 OK

Server: nginx/1.2.2

Date: Sat, 21 Oct 2017 06:42:21 GMT

Content-Type: application/json; charset=utf-8

Content-Length: 75

Connection: keep-alive

Cache-Control: private

X-AspNetMvc-Version: 5.2

X-AspNet-Version: 4.0.30319

X-Powered-By: ASP.NET

然后又用python程序请求了一次，结果请求成功，返回的还是

{"Id":"6202c187-2fad-46e8-b4c6-b72ac8de0142","ReturnMsg":"加载失败！"}

因为一般cookie都会在短时间内过期，所以更新了cookie，然后请求成功

需要注意的是用程序爬虫一定要把Header设置好，这个app如果反爬的时候封ip的话可能就麻烦了。

python爬虫headers设置后无效解决方案的更多相关文章

Python爬虫之设置selenium webdriver等待
Python爬虫之设置selenium webdriver等待 ajax技术出现使异步加载方式呈现数据的网站越来越多,当浏览器在加载页面时,页面上的元素可能并不是同时被加载完成,这给定位元素的定位增加 ...
Python爬虫：设置Cookie解决网站拦截并爬取蚂蚁短租
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Eastmount PS:如有需要Python学习资料的小伙伴可以加 ...
useJDBC4ColumnNameAndLabelSemantics设置后无效，怎么办？
连接的是DB2数据库, 在查询语句中有SELECT COLUMNNAME AS ALIASNAME FROM TABLE这样的结构时, 会报如下错误: Caused by: com.ibm.db2.j ...
mysql: expire_logs_days设置后无效问题
Sina blog - MySQL的 expire_logs_days 和 PURGE MASTER LOGS 无效问题
Eclipse Kelper 设置代理服务器无效解决方案
Open Network Connection Settings. Select Active Provider to "Manual". Set HTTP/HTTPS proxy ...
（转）Python爬虫--通用框架
转自https://blog.csdn.net/m0_37903789/article/details/74935906 前言: 相信不少写过Python爬虫的小伙伴,都应该有和笔者一样的经历吧只要确 ...
Python 爬虫的代理 IP 设置方法汇总
本文转载自:Python 爬虫的代理 IP 设置方法汇总 https://www.makcyun.top/web_scraping_withpython15.html 需要学习的地方:如何在爬虫中使用 ...
python爬虫模拟登录验证码解决方案
[前言]几天研究验证码解决方案有三种吧.第一.手工输入,即保存图片后然后我们手工输入:第二.使用cookie,必须输入密码一次,获取cookie:第三.图像处理+深度学习方案,研究生也做相关课题,就用 ...
Python爬虫学习：四、headers和data的获取
之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取就以博客园的首页为例:http://www.cnblogs.c ...

随机推荐

Linux之linux入门
学习linux之前先了解一下操作系统: 操作系统的定义: 操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内 ...
linux设置禁止ping
linux禁止ping为了服务器的安全, 防止网络攻击(DOS 攻击消耗网络宽带,CPU资源), 需要服务器设置禁止ping通常有两种方式第一种是通过防火墙 iptables 设置第二种是内核设置 ...
【转】新装的CentOS 7安装python3
https://blog.csdn.net/lovefengruoqing/article/details/79284573 centos7 自带有 python,但是却是 python2 版本的 p ...
easyui panel异步获取后台数据在前台显示
我在使用easyui的时候,想做一个向下图所示的效果,这个panel的样式已经做好了,想从后台异步获取json数据,然后填入到文本框中,不知道哪位大神能给点指导?万分感谢! 放入表单中,使用form对 ...
Openresty（Lua+Nginx）实践
简介: OpenResty(也称为 ngx_openresty)是一个全功能的 Web 应用服务器.它打包了标准的 Nginx 核心,很多的常用的第三方模块,以及它们的大多数依赖项. OpenRest ...
团队博客作业Week4 --- 学霸网站--NABC
1.需求(Need) 伴随着经济的发展,科学技术取得了飞速的发展,互联网在各行各业的发展中取得了广泛的应用.随着这些事物的发展,我们每个人都会接触到相当庞大的数据.如何在这些数据中找到自己需要的,如何 ...
Sprint2
进展:主要进行了在安卓手机端进行APP开发的资料及有关学习的视频的查找等.了解也学习了这些资料还有技术.第一个任务完成了一半. 燃尽图:
【转】 MATLAB下如何指定GPU资源
[转] MATLAB下如何指定GPU资源原文链接
结对项目作业报告——四则运算web项目
成员:顾思宇2016011993 程羚2016012050 1.仓库地址:https://git.coding.net/DandelionClaw/WEB_Calculator.git 注: 本项 ...
week2-作业2
项目地址:https://git.coding.net/Rainoob/calculate.git ·1.需求分析:程序可以根据输入的参数n随机产生n道四则运算计算题,每个数字在0-100之间.运算符 ...

python爬虫headers设置后无效解决方案

python爬虫headers设置后无效解决方案的更多相关文章

随机推荐

热门专题