python使用requests模块模拟登陆知乎

from bs4 import  BeautifulSoup

import  requests

import  time

def captcha(captcha_data):

    with open("captcha.jpg",'wb') as f:

        f.write(captcha_data)

    text=input("请输入验证码")

def zhihuLogin():

   #构建一个session对象，可以保存cookie（相当于urllib中用的cookiejar）

   sess= requests.Session()

   #请求报头

   headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"}

   #首先获取登陆页面，找到需要POST的数据，同时记录当前页的cookie值

   html=sess.get("https://www.zhihu.com/#signin",headers=headers).text

   bs=BeautifulSoup(html,"lxml")

    #获取之前get的页面的_xsrf值

   #_xsrf防止CSRF攻击（跨站请求伪造），通常叫做跨域攻击，是一种利用网站对用户的一种信任机制来做坏事。

   #跨域攻击一般伪装成网站信任的用户请求（利用cookie），盗取用户信息，欺骗web服务器

   #所以网站会通过设置一个隐藏字段存放这个MD5字符串，这个字符串用来校验用户cookie和服务器cookie

   _xsrf=bs.find("input",attrs={"name":"_xsrf"}).get("value")

   #验证码的链接获取,观察发现r的值是根据unix时间戳变得

   captcha_url="https://www.zhihu.com/captcha.gif?r=%d&type=login" % (time.time()*1000)

   #发送请求得到图片数据流

   captcha_data=sess.get(captcha_url,headers=headers).content

   text=captcha(captcha_data)

   data={

       "_xsrf":_xsrf,

       "email":"邮箱",

       "password":"密码",

       "captcha":text

   }

   resqonse=sess.post("https://www.zhihu.com/login/email",data=data,headers=headers)

   print(resqonse.text)

   #获取个人主页源码

   #myhomepageresqonse=sess.get("主页url",headers=headers)

if __name__=="__main__":

    zhihuLogin()

python使用requests模块模拟登陆知乎的更多相关文章

【python爬虫】用requests库模拟登陆人人网
说明:以前是selenium登陆取cookie的方法比较复杂,改用这个 """ 用requests库模拟登陆人人网 """ import r ...
Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗
介绍本篇博客将会介绍一个Python爬虫,用来爬取各个国家的国旗,主要的目标是为了展示如何在Python的requests模块中使用POST方法来爬取网页内容. 为了知道POST方法所需要传 ...
Python之requests模块-hook
requests提供了hook机制,让我们能够在请求得到响应之后去做一些自定义的操作,比如打印某些信息.修改响应内容等.具体用法见下面的例子: import requests # 钩子函数1 def ...
Python之requests模块-cookie
cookie并不陌生,与session一样,能够让http请求前后保持状态.与session不同之处,在于cookie数据仅保存于客户端.requests也提供了相应到方法去处理cookie. 在py ...
Python之requests模块-session
http协议本身是无状态的,为了让请求之间保持状态,有了session和cookie机制.requests也提供了相应的方法去操纵它们. requests中的session对象能够让我们跨http请求 ...
Python之requests模块-request api
requests所有功能都能通过"requests/api.py"中的方法访问.它们分别是: requests.request(method, url, **kwargs) req ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
第十二篇 requests模拟登陆知乎
了解http常见状态码可以通过输入错误的密码来找到登陆知乎的post:url 把Headers拉到底部,可以看到form data _xsrf是需要发送的,需要发送给服务端,否则会返回403错误,提 ...
python模拟登陆知乎并爬取数据
一些废话看了一眼上一篇日志的时间已然是5个月前的事情了不禁感叹光阴荏苒其实就是我懒几周前心血来潮想到用爬虫爬些东西于是先后先重写了以前写过的求绩点代码爬了草榴贴图,妹子图网,后来想爬婚恋网 ...

随机推荐

java 重写父类构造器
【uoj#48】[UR #3]核聚变反应强度数论
题目描述给出一个长度为 $n$ 的数列 $a$ ,求 $a_1$ 分别与 $a_1...a_n$ 的次大公约数.不存在则输出-1. 输入第一行一个正整数 $n$ . 第二行 $n$ 个用空格隔开的 ...
Git Gerrit Repo User Manual
Git Repo Gerrit User Manual Revision History Revision # Description Date Author ...
Probability|Given UVA - 11181（条件概率）
题目大意:n个人去购物,要求只有r个人买东西.给你n个人每个人买东西的概率,然后要你求出这n个人中有r个人购物并且其中一个人是ni的概率pi. 类似于5个人中抽出三个人其中甲是这三个人中的一个的 ...
【刷题】BZOJ 4349 最小树形图
Description 小C现在正要攻打科学馆腹地------计算机第三机房.而信息组的同学们已经建好了一座座堡垒,准备迎战.小C作为一种高度智慧的可怕生物,早已对同学们的信息了如指掌. 攻打每一个人 ...
Linux学习笔记一：Linux配置java环境变量
一.安装JDK: 1.创建JDK的安装目录: sudo mkdir /usr/jdk 2.将jdk-7u25-linux-x64.tar.gz拷贝至/usr/jdk目录下 sudo cp jdk-7u ...
CF 566A Matching Names
CF 566A Matching Names 题目描述给出n个名字和n个昵称,求一个名字和昵称的劈配方案,使得被劈配的名字和昵称的最长公共前缀长度的和最大. 1<=n<=100000 字 ...
struts2(s2-052)远程命令执行漏洞复现
漏洞描述: 2017年9月5日,Apache Struts发布最新安全公告,Apache Struts2的REST插件存在远程代码执行的高危漏洞,该漏洞由lgtm.com的安全研究员汇报,漏洞编号为C ...
Codeforces 585D. Lizard Era: Beginning（meet in the middle）
一眼题...这个数据范围也太明显了吧... suma1==suma2 && sumb1==sumb2 && sumc1==sumc2 相当于suma1-sumb1==s ...
Java中将对象转换为Map的方法
将对象转换为Map的方法,代码如下: /** * 将对象转成TreeMap,属性名为key,属性值为value * @param object 对象 * @return * @throws Illeg ...

python使用requests模块模拟登陆知乎

python使用requests模块模拟登陆知乎的更多相关文章

随机推荐

热门专题