Python学习—爬虫篇之破解ntml登陆问题

之前帮公司爬取过内部的一个问题单网站，要求将每个问题单的下的附件下载下来。一开始的时候我就遇到一个破解登陆验证的大坑...... (╬￣皿￣)=○

由于在公司使用的都是内网，代码和网站的描述也都属于公司的信息安全资产范围，具体细节不方便透露，就简要描述一下需求和问题吧。

在访问网站前需要先进行一个登陆，浏览器使用的是chrome，一开始我的想法是通过chromrdriver模拟登陆，但是用户名和密码输入框都是使用的浏览器自带的弹窗，chromedriver无法获取到输入和点击位置。放弃这个想法后我就想着模拟一个请求头去发送请求破解的方式，但是直接F12后还是没法从头信息中获取到登陆验证的方式。。。。由于之前压根没接触过爬虫，对前端知识和网络协议也不太了解，当场直接自闭了！！！

皇天不负有心人，最后通过Fiddler抓包，终于获取到了登陆验证的方式。网站是通过ntml方式来验证登陆的。废话不多说直接上代码(网址和账号密码信息请自行修改)

 # -*- coding:utf-8 -*-

 # author: cdc

 # date: 2019/1/20

 import ntlm3

 import urllib.request

 def login(url,username,password):

     passman = urllib.request.HTTPPasswordMgrWithDefaultRealm()

     passman.add_password(None,url,username,password)

     auth_NTLM = ntlm3.HTTPNtlmAuthHandler.HTTPNtlmAuthHandler(passman)

     opener = urllib.request.build_opener(auth_NTLM)

     urllib.request.install_opener(opener)

     response = urllib.request.urlopen(url)

     return response

 if __name__ == "__main__":

     url = r'http://dts.huawei.com'

     username = 'cwx589809'

     password = 'cdc19951216tr,!'

     res = login(url,username,password)

     print(res)

但是还是无法破解登陆问题，获取的返回信息状态还是400。是的，忙活了半天我再一次自闭了！！！

再一次在发送登陆请求的时候用Fiddler去抓包，发现auth_header值中有字段'negotiate'，而我又对比了下python-ntml3中的源码，返现python-ntml3库中AbstractNtlmAuthHandler类的http_error_authentication_required方法中并没有对这个值进行判断。

源码：

将这一行的代码改成：

if auth_header_value is not None and (

                    'ntlm' in auth_header_value.lower() or 'negotiate' in auth_header_value.lower()):

此外，网页返回的信息都是string类型的，而源码中统一处理的都是bytes对象，因此还需对源码的两处进行一个解码的操作

源码：

将这两处改为：

# line_num:58

auth = 'NTLM %s' % bytes.decode(ntlm.create_NTLM_NEGOTIATE_MESSAGE(user, type1_flags))

# line_num:108

auth = 'NTLM %s' % bytes.decode(ntlm.create_NTLM_AUTHENTICATE_MESSAGE(ServerChallenge, UserName, DomainName, pw, NegotiateFlags))

小结一下：

首先这个只是针对我们公司内部开发的网站的一个问题，其他网站的auth_header或许只有'ntml'或者其他的值，这个需要大家自己根据实际的需求去修改；

其次或许还有其他的更好的破解此类登陆的方式，也希望大家一起学习分享(鄙人刚入门小白一个)。

PS:Fiddler真尼玛好用，抓包神器名不虚传！

完结撒花，掰掰！

Python学习—爬虫篇之破解ntml登陆问题的更多相关文章

Python学习——爬虫篇
requests 使用requests进行爬取下面是我编写的第一个爬虫的脚本 import requests # 导入reques ...
Python学习第一篇
好久没有来博客园了,今天开始写自己学习Python和Hadoop的学习笔记吧.今天写第一篇,Python学习,其他的环境部署都不说了,可以参考其他的博客. 今天根据MachineLearning里面的 ...
[Python学习]错误篇二：切换当前工作目录时出错——FileNotFoundError: [WinError 3] 系统找不到指定的路径
REFERENCE:<Head First Python> ID:我的第二篇[Python学习] BIRTHDAY:2019.7.13 EXPERIENCE_SHARING:解决切换当前工 ...
[Python学习]错误篇一
REFERENCE:<Head First Python> ID:我的第一篇[Python学习] BIRTHDAY:2019.7.6 EXPERIENCE_SHARING:两个程序错误类型 ...
Python学习—基础篇之文件操作
文件操作文件操作也是编程中需要熟练掌握的技能,尤其是在后台接口编写和数据分析过程中,对各种类型的文件进行操作,获取文件信息或者对信息进行存储是十分重要的.本篇博客中将主要对常见的文本格式文件和Exc ...
Python学习 - 入门篇2（更新中）
前言学习渠道:慕课网:Python进阶记录原因:我只是想边上课边做笔记而已,呵呵哒食用提示:教程环境基于Python 2.x,有些内容在Python 3.x中已经改变函数式编程定义:一种抽象 ...
Python学习 - 入门篇1
前言学习渠道:慕课网:Python入门记录原因:人总归要向记忆低头[微笑再见.gif] 记录目标:形成简洁的知识点查阅手册变量和数据类型变量赋值在Python中,可以把任意数据类型赋值给变 ...
Python学习——BeautifulSoup篇
BeautifulSoup Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beau ...
Python学习 —— 爬虫入门 - 爬取Pixiv每日排行中的图片
更新于 2019-01-30 16:30:55 我另外写了一个面向 pixiv 的库:pixiver 支持通过作品 ID 获取相关信息.下载等,支持通过日期浏览各种排行榜(包括R-18),支持通过 p ...

随机推荐

mysql与mysqli的区别
博客搬家了,欢迎大家关注,https://bobjin.com mysqli连接是永久连接,而MySQL是非永久连接. mysql连接:每当第二次使用的时候,都会重新打开一个新的进程. mysqli连 ...
Centos6.8 搭建Nginx服务器
Nginx (engine x) 是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器,其特点是占有内存少,并发能力强,业界内的评价一直很不错,反正用过的都说好,虽然我还 ...
int和integer的区别和使用
基本数据类型和引用数据类型的区别和介绍:https://www.cnblogs.com/bekeyuan123/p/7468845.html 1.int是基本数据类型,integer是引用数据类型,是 ...
Spring Boot/Spring Cloud
104.什么是 spring boot? 在Spring框架这个大家族中,产生了很多衍生框架,比如 Spring.SpringMvc框架等,Spring的核心内容在于控制反转(IOC) ...
django中多个app放入同一文件夹apps
开发IDE:pycharm 新建一个apps文件夹需要整理的app文件夹拖到同一个文件夹中,即apps.(弹出对话框,取消勾选Search for references) 在pycharm 中,右键 ...
活学活用wxPython基础框架
看活活用wxpython这本书,基本框架是这样子的,这里有定义输出,然后打印出整个流程,可以看到是怎样执行的,明天请假了,五一回去玩几天,哈哈,估计假期过来都忘了 import wx import s ...
Python 算术运算符
Python 算术运算符运算结果为浮点数除法:/ 整除: // 求余计算: % 求余运算可以用于固定时间的检测,比如说每10分钟进行一次什么样的操作,则:minute % 10 乘方运算:
nginx 代理flask应用的uwsgi配置
socket代理配置: 关于uwsgi的用法,请自行百度,这里只针对socket文件和端口的不同,进行单一的记录. 这种方式启动的flask应用,由于是通过socket与nginx通信的,所以必须制定 ...
Scrapy实战篇（四）爬取京东商城文胸信息
创建scrapy项目 scrapy startproject jingdong 填充 item.py文件在这里定义想要存储的字段信息 import scrapy class JingdongItem ...
java web 三大核心组件Filter
Filter 过滤: 定义: 过滤器是客户端与服务端之间的一道网,可以对请求的数据进行拦截和修改,同时也可以对,响应数据进行拦截和修改

Python学习—爬虫篇之破解ntml登陆问题

Python学习—爬虫篇之破解ntml登陆问题的更多相关文章

随机推荐

热门专题