一些废话

看了一眼上一篇日志的时间已然是5个月前的事情了不禁感叹光阴荏苒~~其实就是我懒~~ 几周前心血来潮想到用爬虫爬些东西于是先后先重写了以前写过的求绩点代码爬了草榴贴图，妹子图网，后来想爬婚恋网上的数据分析结果在第一步模拟登陆就卡住了于是改爬知乎因为有现成代码参考。

1. 模拟登陆

1.1 查看post参数

我用的是Chrome浏览器按F12打开开发者工具选到NetWork 然后登陆一次观察在登陆过程中post了哪些参数
collect估计是用来收集要发送的数据 email用来post数据看一下email的post data：

email和password对应账号密码 captcha对应验证码 remember_me对应是否记住登陆状态

1.2 找到_xsrf

唯一有些奇怪的是出现了_xsrf 不过它不会凭空出现于是我考虑是不是这是从客户端的源代码上得到的所以返回登陆页面去寻找这个变量果不其然在源码里找到了这个变量的藏身之处

然后用可以很方便地用BeautifulSoup解析得到_xsrf

_xsrf = soup.find('input',{'type':'hidden','name':'_xsrf'})['value']

1.3 得到正确的验证码

在验证码图片上右键检查可以得到图片的url 发现有Query String'r'和'type' 每刷新一次r都会改变猜测r是random 是随机生成的在一次Session中随机生成一个整数去get验证码
生成url 然后下载到本地手动输入验证码

r = s.get(captcha_url, params = {'r':random.random(),'type':'login'})
open('captcha.gif','wb').write(r.content)

然后生成post data 加上headers post到http://www.zhihu.com/login/email就行了服务器会返回一个json格式的数据若'r'为0则登陆成功若为1 可以查看'msg'得到登陆失败的原因

2 爬取想要的数据

2.1 获取异步加载信息

登陆成功后找到关注页面发现只显示20个关注的人接着向下滑动又加载了20个这里采用了异步加载需要得到异步操作返回的信息然后和刚刚一样查看NetWork的信息选到XHR选项页

我总共关注了139人分成7次异步加载最后一次offset为139判断为结束这些post数据的格式基本都一样只是offset标识每次加载关注人的起点然后这里第一次出现了hash_id 大概是用来唯一标识用户的所以再去搜索网页源码

有4个地方有这个源码，随便找一处解析出来就行了

def get_user_hash(text):
    soup = BeautifulSoup(text, 'html.parser')
    json_data = soup.find('script',{'class':'json-inline', 'data-name':'current_people'}).get_text().split('"')
    return json_data[7]

需要注意的是每个用户的user-hash是不同的所以在不同用户的关注人页面需要重新解析一次user-hash

这里我用广度搜索的策略收集用户信息以我为种子得到我的关注者的id 然后再用他们的id得到他们的关注者结束条件为记录用户数大于10,000

不过这个数似乎太大了大概到4W多的时候已经有很多重复的了(添加失败) 而且有时广度搜索期间会卡住我已经设置了全局socket的timeout为5s而且还没用到多线程所以不知道为什么会卡住

代码仅仅是实现了功能没有考虑代码的规范和异常处理也没有注释仅做分享今后再解决卡住的问题和实现多线程

最后分享下代码代码传送门

还有废话

大三下的日子过得百无聊赖且无限循环每天的日程就是
if 有课
{
    滚去上课
}
else
{
    刷保研论坛
    背单词
    刷题
    搞技术
    玩游戏
}
发现还没好好学习马上就要期中考了从明天开始就开始着手解决期中考这个主要矛盾然后在循环循环可能等到确认有高校要我之后才能专心看和学自己感兴趣的吧期待那个时候

python模拟登陆知乎并爬取数据的更多相关文章

python模拟登陆知乎
---恢复内容开始--- 在完成前面的阶段的任务之后,我们现在已经能够尝试着去模拟登录一些网站了.在这里我们模拟登录一下知乎做一下实验.笔者在这里总共用了三天多的时间,下面给大家分享一下笔者是怎么一步 ...
python网络爬虫（6）爬取数据静态
爬取静态数据并存储json import requests import chardet from bs4 import BeautifulSoup import json user_agent='M ...
python通过token登录，并爬取数据实例
from bs4 import BeautifulSoup import requests class Zabbix(object): def __init__(self, headers): sel ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
Python模拟登陆万能法-微博|知乎
Python模拟登陆让不少人伤透脑筋,今天奉上一种万能登陆方法.你无须精通HTML,甚至也无须精通Python,但却能让你成功的进行模拟登陆.本文讲的是登陆所有网站的一种方法,并不局限于微博与知乎,仅 ...
python模拟浏览器爬取数据
爬虫新手大坑:爬取数据的时候一定要设置header伪装成浏览器!!!! 在爬取某财经网站数据时由于没有设置Header信息,直接被封掉了ip 后来设置了Accept.Connection.User-A ...
Python模拟登陆新浪微博
上篇介绍了新浪微博的登陆过程,这节使用Python编写一个模拟登陆的程序.讲解与程序如下: 1.主函数(WeiboMain.py): import urllib2 import cookielib i ...
Python模拟登陆TAPD
因为在wiki中未找到需要的数据,查询也很迷,打算用python登录tapd抓取所需项目下的wiki数据,方便查找. 2018-9-30 19:12:44 几步走模拟登录tapd 抓取wiki页左侧 ...
Python分页爬取数据的分析
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 向右奔跑 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...

随机推荐

Sequelize 关系模型简介
Sequelize 关系模型简介先介绍一下本文用到的术语: 源: 调用 sequelize 中关系方法的调用者目标: 调用 sequelize 中关系方法中的参数比如, User.hasOne( ...
HDU1005
Number Sequence HDU-1005 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Jav ...
冲刺一（Day 3）
冲刺一 (Day 3) 用户表 uid int 8 用户ID username varchar 20 用户名 password varchar 20 密码 email varchar 30 邮箱 ph ...
DapperExtensions的基本用法
介绍下使用Dapper-Extensions的基本语法 //实体类 DemoEntity entity = new DemoEntity(); //根据实体主键删除 this.Delete<De ...
linux 配置 tomcat 自动发布脚本
首先将打包好的 war 包(举例 management-20160809-1.0.war),传到 tomcat 的 webapps 目录下,然后在 tomcat 目录下新建 deploy.sh 脚本. ...
Android7.0 新特性
删除了三个隐式广播 1.监听网络变化的广播 CONNECTIVITY_ACTION,在Manifest.xml中注册的不会受到,在前台运行的程序 registerReceiver()注册的广播可以接 ...
php工作笔记4-mysql笔记1
1.Mysql中数值的长度和最大值是没有关系的,它仅仅只代表了数据的宽度,比如:int(4)和int(8)可以存储的数据长度是一样的,她两的大小都是4Byte, 在存储上数据的时候比如Int(4) | ...
HUSTOJ搭建实录
要做一个MOOC平台,要求有在线编程功能,想偷个懒,于是用了HUSTOJ...... 系统:Ubuntu14.04 Kylin 步骤: 一.搭建服务器和相应环境 apache2: sudo apt-g ...
vim的树形菜单NERDTREE的设置
网上比较好的一篇文章:http://coolshell.cn/articles/1679.html http://coolshell.cn/articles/11312.html 1.Vim安装NER ...
gfw列表
https://raw.githubusercontent.com/gfwlist/gfwlist/master/gfwlist.txt

python模拟登陆知乎并爬取数据

一些废话