爬虫(二)requests 登陆某检索网站
1 import requests
import os
from PIL import Image
import pytesseract
import re rootUrl = xxx
# 构建登录页面url
9 loginUrl = rootUrl + '/sipopublicsearch/portal/uilogin-forwardLogin.shtml'
# 构建登陆页面headers
rootHeaders = {
'Cache-Control': 'max-age=0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
'Upgrade-Insecure-Requests': '',
'Connection': 'keep-alive',
'Host': 'www.pss-system.gov.cn'
}
# 保持会话,建立session
s = requests.session()
# get 之后打印cookies,发现其中缺了一项cookie,这里手动添加
requests.utils.add_dict_to_cookiejar(s.cookies,{'avoid_declare':'declare_pass'}) # 使用utils.add_dict_to_cookiesjar()是保存到session里面
r =s.get(url=rootUrl,headers=rootHeaders,verify=False) # 在某段时间内可以一直存在
print(s.cookies.get_dict())
# 请求 验证码链接 ,下载图片
# 构建验证码链接
verifyUrl = rootUrl + '/sipopublicsearch/portal/login-showPic.shtml'
# 构建请求验证码的headers
verifyHeaders = {
'Cache-Control': 'max-age=0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
'Upgrade-Insecure-Requests': '',
'Connection': 'keep-alive',
'Host': rootUrl,
'Referer': rootUrl + '/sipopublicsearch/portal/uilogin-forwardLogin.shtml',
}
verifyCode = s.get(url=verifyUrl,headers=verifyHeaders,verify=False)
os.chdir(r'更改保存验证码图片路径')
with open('verifycode.png','wb') as f:
f.write(verifyCode.content)
f.close()
png = Image.open(r'verifycode.png')
# pip 出问题了 ,装不了 tesseract ,只能手动识别了
#verifycode = pytesseract.image_to_string(png)
#print('验证码为【{}】,'.format(verifycode),end='')
png.show()
mycode = input('请输入答案:') # 提交表单的 第一个请求是 post ,然后从headers中取出 下一个跳转的url
# 先构建post的url, 其中参数 V 其实可以做成一个自动变化的参数,这里就不做了
jumpUrl = rootUrl + '/sipopublicsearch/wee/platform/wee_security_check?v=20180802'
jumpHeaders = {
'Cache-Control': 'max-age=0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
'Upgrade-Insecure-Requests': '',
'Connection': 'keep-alive',
'Host': rootUrl,
'Referer': rootUrl + '/sipopublicsearch/portal/uilogin-forwardLogin.shtml',
'Origin': rootUrl,
'Content-Type': 'application/x-www-form-urlencoded',
'Content-Length': '',
}
postData = {
'j_loginsuccess_url':'', # 这个值为空,用两个引号表示空值,不能换 None 哦!!
'j_validation_code':mycode,
'j_username':用户名, # 用户名和密码是加密过的,不过还好不是动态变化的加密,不然就麻烦了
'j_password':密码,
}
# post 请求
postResponse = s.post(url=jumpUrl,data=postData,headers=jumpHeaders,verify=False)
# 测试是否已经进爬取页面
from lxml import etree
html = etree.HTML(postResponse.text)
testEle = html.xpath('//div[@class="wrap-left"]/p/text()')[0]
print(testEle) # 这里已经显示 【 xxx用户名,欢迎访问!】 表示已经进入爬取页面了 # 可以像下面这样写到本地,方便自己查看,Txt还要注意 需要 编码成 utf-8
with open('content.txt','w',encoding='utf-8') as c:
c.write(postResponse.text)
c.close()
print(postResponse.status_code) # 这下面的都不要了 ,因为上面就已经进去了,下面这段代码对应的响应位于【发送post请求】与【获取真正可以爬取页面】之间的跳转页面
'''
# 获取响应中跳转的url
pattern = re.compile(r'<a href="(.*?)">')
reUrl = pattern.search(postResponse.text)
getUrl = reUrl.group(1)
print(reUrl.group(1)) # 提交表单的第二次请求是 get ,
# url:getUrl ; headers: jumpHeaders
print(s.cookies.get_dict())
getResponse = s.get(url=getUrl,headers=jumpHeaders,verify=False) # 这里请求的cookies和 headers 应该是只能按它需要的发送,不能发多
print(getResponse.url)
print(getResponse.headers)
print(s.cookies.get_dict())
# re2Url = pattern.search(getResponse.text)
# lastUrl = re2Url.group(1)
# print(re2Url.group(1)) # 得到 /sipopublicsearch/portal/uiIndex.shtml
# get2Url = nethost + lastUrl # 进入真正的登陆后的页面
# 拿最后获取的 get2Url 进入登陆后页面
# lastResponse = s.get(url=get2Url,headers=jumpHeaders,verify=False)
# print(lastResponse.status_code)
# print(lastResponse.url)
'''
上面这段代码是登陆某检索网站的全部思路,其中对于登陆该网站而言真正有用的是【1~90行】,那为什么还有这么多呢?那是因为之前的经验蒙蔽了我得双眼,比如下面这两者情况:
第一种aaarticlea/png;base64," alt="" />
第二种aaarticlea/png;base64," alt="" />
【这里开始分析】: 以前碰到的是上图中第一种;那儿有两个框,分别标了1和2;2代表的是真正请求的爬取网站,1代表真正请求前跳转的网站,一般这种跳转网站字节少,上面箭头已给出对比;两个框里面的状态码 都是200,表示这都是有响应的,通常情况下,这种跳转网页的响应中都包含了真正请求爬取网站所需的参数或者cookie,因此要登陆这种有跳转的爬取网站都必须先去跳转网站获取数据;这里有难度的登陆网站【个人经验】会做以下几点:(1)将跳转网站链接参数用js加密,让大部分爬虫挂在这儿,(2)不加密跳转网站链接参数,转为js加密数据【哪些数据?那些在处理登陆问题时要用到的数据】(3)上述两个不全加密 (4 )【有哪些加密方法啊?这个我晓得几个,不过现在还无法搞定,等能搞定再写一篇解密】
上图中第二种:框框共有4个,其中2和3明显属于页面跳转链接,于是经验使然,直接打开fiddler开始分析链接参数啊、下一步需要的数据啊,哎,发现两个都没有加密过,只是位置变来变去,ok,没什么大问题,搞定后开始将数据代入真正请求的爬取网址,代码开始运行....
然后就发现...好像将表单提交之后,就已经进入爬取页面了。 嗯??!! WTF ? 那我后面还搞了这么多,不是瞎搞啊 ? 什么情况呢?
然后就发现上图框框中标记的1、2、3、4啊,前面的状态码,不太对! 中间那两个302是什么意思? 呃 ? 忘了,然后baidu ,哦?302表示临时的url重定向url!! 原来是这样,难怪不用我自己发送请求,原来是多此一举【总结这个网站,呃,除了数据绕了点,好像其他没上什么高难度的操作,嗯,很友好我喜欢!!!】
【结语】此次目的就是登陆,因此写了登陆时测试的代码【呸,写的都是什么,这么乱还能叫代码?】,如果后续要爬取数据的话,思路是这样的:
1、加入ip代理【先测试一个ip能爬多少个,然后退出登陆,换headers,ip重新登陆再爬取,这样循环...】
2、引入线程【一个爬数据,一个存数据到本地(啥形式?随便。注意存的时候要查下重),主要是为了防止:一旦错误发生,数据全部丢失,又得重来】
3、如果有大量url,那就建个url管理器,并将url实时导入导出到本地【这样一旦发生错误,还可以从断开的url继续爬,虽然要牺牲些时间】
【最后】
【有一个问题求助:在某个链接的参数上遇到了【MmEwMD】这个js加密,求个例子解法】
爬虫(二)requests 登陆某检索网站的更多相关文章
- Python 爬虫二 requests模块
requests模块 Requests模块 get方法请求 整体演示一下: import requests response = requests.get("https://www.baid ...
- 爬虫二 requests模块的使用
一.requests模块的介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:reques ...
- 第三百二十二节,web爬虫,requests请求
第三百二十二节,web爬虫,requests请求 requests请求,就是用yhthon的requests模块模拟浏览器请求,返回html源码 模拟浏览器请求有两种,一种是不需要用户登录或者验证的请 ...
- python爬虫之requests库介绍(二)
一.requests基于cookie操作 引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们 ...
- Python爬虫入门教程 2-100 妹子图网站爬取
妹子图网站爬取---前言 从今天开始就要撸起袖子,直接写Python爬虫了,学习语言最好的办法就是有目的的进行,所以,接下来我将用10+篇的博客,写爬图片这一件事情.希望可以做好. 为了写好爬虫,我们 ...
- Python爬虫之requests
爬虫之requests 库的基本用法 基本请求: requests库提供了http所有的基本请求方式.例如 r = requests.post("http://httpbin.org/pos ...
- python爬虫之requests模块
一. 登录事例 a. 查找汽车之家新闻 标题 链接 图片写入本地 import requests from bs4 import BeautifulSoup import uuid response ...
- 孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块 (完整学习过程屏幕记录视频地址在文末) 从今天起开始正式学习Python的爬虫. 今天已经初步了解了两个主要的模块: ...
- Python爬虫练习(requests模块)
Python爬虫练习(requests模块) 关注公众号"轻松学编程"了解更多. 一.使用正则表达式解析页面和提取数据 1.爬取动态数据(js格式) 爬取http://fund.e ...
随机推荐
- 包-logging-hashlib-深浅拷贝
一.包: 包的本质就是一个模块 什么是包:它是一系列模块文件的结合体,表示形式就是一个文件夹,该文件夹内部通常会有一个__init__..py的文件 导入包的过程:先产生一个执行文件的名称空间 1:创 ...
- 893C. Rumor#谣言传播(赋权无向图&搜索)
题目出处:http://codeforces.com/problemset/problem/893/C 题目大意:一个城中有一些关系圈,圈内会传播谣言,求使每个人都知道谣言的最小花费 #include ...
- \b 是单词边界锚点 word-boundary anchor,一个“\b”匹配一个单词的一端,两个“\b”匹配一个单词的头尾两端
123 $_ = "beforematcha? fter"; 124 if(/\b\w+a\b/){ 125 print "matched: < ...
- Angular(一)
Angular开发者指南(一)入门介绍 什么是AngularAngularJS是动态Web应用程序的结构框架. 它允许您使用HTML作为模板语言,并允许您扩展HTML的语法以清晰,简洁地表达应用程 ...
- Codeforces Round #525 (Div. 2)后俩题
E:https://codeforces.com/contest/1088/problem/E dp+贪心 题目大意:选择一个k并且选择k个连通块,要求sigma a[i]/k最大,k尽量大,对于给定 ...
- 系统学习javaweb重点难点2--.JavaScript中的正则对象简述和正则对象使用注意事项。
注意:只是简述,对正则对象的了解目前还不是很深刻,日后详细了解了再来修改. 正文: 正则对象 首先,我们要了解一下什么是正则对象: 正则表达式,又称规则表达式.(英语:Regular Expressi ...
- Mysql 和 Java对比异同
1.求两个时间的差(天数) mysql : to_days 距离公元0年的天数 select TO_DAYS('2017-10-18 00:00:00'),TO_DAYS(NOW()), (TO_DA ...
- Office 365管理员设置
一.注册 1.输入网站 http://www.21vbluecloud.com/ ,进入世纪互联蓝云官方网站 2.选择 运营的产品->Office 365 3.选择了解更多 4.浏览根据不同的 ...
- JavaScript--DOM,BOM
前戏 到目前为止,我们已经学过了JavaScript的一些简单的语法.但是这些简单的语法,并没有和浏览器有任何交互. 也就是我们还不能制作一些我们经常看到的网页的一些交互,我们需要继续学习BOM和DO ...
- 浏览器加载、渲染html的顺序和页面优化
浏览器加载和渲染html的顺序 1. IE下载的顺序是从上到下,渲染(就是把请求的内容显示到浏览器屏幕上)的顺序也是从上到下,下载和渲染是同时进行的. 2. 在渲染到页面的某一部分时,其上面的所有部分 ...