python爬虫知乎

在之前写过一篇使用python爬虫爬取电影天堂资源的博客，重点是如何解析页面和提高爬虫的效率。由于电影天堂上的资源获取权限是所有人都一样的，所以不需要进行登录验证操作，写完那篇文章后又花了些时间研究了一下python模拟登陆，网上关于这部分的资料很多，很多demo都是登陆知乎的，原因是知乎的登陆比较简单，只需要post几个参数，保存cookie。而且还没有进行加密，很适合用来做教学。我也是是新手，一点点的摸索终于成功登陆上了知乎。就通过这篇文章分享一下学习这部分的心得，希望对那些和我一样的初学者有所帮助。

先来说一下，爬虫模拟登陆的基本原理吧，我也是刚开始接触对于一些深层次的东西也不是掌握的很清楚。首先比较重要的一个概念就是cookie，我们都知道HTTP是一种无状态的协议，也就是说当一个浏览器客户端向服务器提交一个request，服务器回应一个response后，他们之间的联系就中断了。这样就导致了这个客户端在向服务器发送请求时，服务器无法判别这两个客户端是不是一个了。这样肯定是不行的。这时cookie的作用就体现出来了。当客户端向服务器发送一个请求后，服务器会给它分配一个标识（cookie），并保存到客户端本地，当下次该客户端再次发送请求时连带着cookie一并发送给服务器，服务器一看到cookie，啊原来是你呀，这是你的东西，拿走吧。所以一个爬虫模拟登陆就是要要做到模拟一个浏览器客户端的行为，首先将你的基本登录信息发送给指定的url，服务器验证成功后会返回一个cookie，我们就利用这个cookie进行后续的爬取工作就行了。

我这里抓包用的就是chrome的开发者工具，不过你也可以使用Fiddler、Firebug等都可以，只不过作为一名前端er对chrome有一种特殊的喜爱之情。准备好工具接下来就要打开知乎的登陆页面并查看https://www.zhihu.com/#signin我们可以很容易发现这个请求发送的就是登录信息，当然我使用手机登陆的用邮件登陆的是最后结尾是email

所以我们只需要向这个地址post数据就行了

phone_num 登录名

password 密码

captcha_type 验证码类型(这个参数着这里并没有实质作用)

rember_me 记住密码

_xsrf 一个隐藏的表单元素知乎用来防御CSRF的（关于CSRF请打开这里）我发现这个值是固定所以就在这里直接写死了若果有兴趣的同学可以写一个正则表达式把这部分的值提取出来这样更严谨一些。

# -*- coding:utf-8 -*-import urllib2import urllibimport cookielibposturl = 'https://www.zhihu.com/login/phone_num'headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) ' 'AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/52.0.2743.116 Safari/537.36', 'Referer':'https://www.zhihu.com/'}value = { 'password':'*****************', 'remember_me':True, 'phone_num':'*******************', '_xsrf':'**********************'}data=urllib.urlencode(value)#初始化一个CookieJar来处理CookiecookieJar=cookielib.CookieJarcookie_support = urllib2.HTTPCookieProcessor(cookieJar)#实例化一个全局openeropener=urllib2.build_opener(cookie_support)request = urllib2.Request(posturl, data, headers)result=opener.open(request)print result.read

当你看到服务器返回这个信息的时候就说明你登陆成功了

{"r":0, "msg": "\u767b\u5f55\u6210\u529f"}

#翻译过来就是 “登陆成功” 四个大字

然后你就可以用这个身份去抓取知乎上的页面了

page=opener.open("https://www.zhihu.com/people/yu-yi-56-70")content = page.read.decode('utf-8')print(content)

这段代码就是通过实例化一个opener对象保存成功登陆后的cookie信息，然后再通过这个opener带着这个cookie去访问服务器上关于这个身份的完整页面。更复杂的比如微博的登陆这种对请求的数据进行加密了的后面有时间再写出来，与大家分享

python爬虫知乎的更多相关文章

python爬虫知乎问答
python爬虫知乎问答 import cookielibimport base64import reimport hashlibimport jsonimport rsaimport binasci ...
Python爬虫知乎文章，采集新闻60秒
前言发现很多人需要新闻的接口,所以自己去搜索了下,发现知乎上正好有对应的用户每天发布新闻简讯,所以自己想写一个新闻的爬虫.如果想做成接口的话,可以加上flask模块即可,这里就暂时只进行爬虫部分的编 ...
python爬虫-知乎登录
#!/usr/bin/env python3 # -*- coding: utf-8 -*- ''' Required - requests (必须) - pillow (可选) ''' import ...
Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化
代码如下: # coding:utf-8 from selenium import webdriver import requests import sys import time from lxml ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
Python爬虫开源项目代码，爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等代码整理
作者:SFLYQ 今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [ ...
23个Python爬虫开源项目代码，包含微信、淘宝、豆瓣、知乎、微博等
今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心,所有链接指向GitHub,微信不能直接打开,老规矩,可以用电脑打开. 关注公众号「Pyth ...
23个Python爬虫开源项目代码：爬取微信、淘宝、豆瓣、知乎、微博等
来源:全球人工智能作者:SFLYQ 今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.Wec ...

随机推荐

JAVA NIO学习四：Path&Paths&Files 学习
今天我们将学习NIO 的最后一章,前面大部分涉及IO 和 NIO 的知识都已经讲过了,那么本章将要讲解的是关于Path 以及Paths 和 Files 相关的知识点,以对前面知识点的补充,好了言归正传 ...
leetcode — linked-list-cycle
/** * Source : https://oj.leetcode.com/problems/linked-list-cycle/ * * Given a linked list, determin ...
jQuery 核心函数（十一）
函数描述 jQuery() 接受一个字符串,其中包含了用于匹配元素集合的 CSS 选择器. jQuery.noConflict() 运行这个函数将变量 $ 的控制权让渡给第一个实现它的那个库.
css中的 nav ul li ul 与 nav>ul>li 这两种写法的区别
<nav> <ul id="a"> <li>a1</li> <li>a2</li> <li>a3 ...
Oracle误删数据文件后出现oracle initialization or shutdown in progress解决
一.错误分析 1.首先本人在出现这种情况的背景是执行如下SQL语句后生成的表空间 --自定义表空间数据表空间临时表空间 CREATE TEMPORARY TABLESPACE HOUSE_TEMP ...
I/O模型详细解析
内核空间和用户空间:由于操作系统都包括内核空间和用户空间(或者说内核态和用户态),内核空间主要存放的是内核代码和数据,是供系统进程使用的空间.而用户空间主要存放的是用户代码和数据,是供用户进程使用的空 ...
The `XXXX` target overrides the `HEADER_SEARCH_PATHS` build setting defined in `Pods/Target Support Files/Pods-game-desktop/Pods-game-desktop.release.xcconfig'. This can lead to prob
The `game-desktop [Release]` target overrides the `HEADER_SEARCH_PATHS` build setting defined in `Po ...
美团Java团队分享：如何实践支付通道自动化管理
随着支付业务量激增,支付团队不断壮大.为了满足日益增长的业务需求,大量的支付通道逐渐接入,但由于对接的各银行和第三方系统的稳定性参差不齐,支付通道故障时有发生,作为承接上下游的核心系统,要在一系列不稳 ...
dubbo源码—Service Invoke
dubbo的远程调用过程是怎么样的? dubbo远程过程调用经过了那些处理? 发起远程调用的时候究竟传了什么数据给provider? 要解决这些问题,欢迎一起探讨走进dubbo源码栏目. 在servi ...
BZOJ:4826: [Hnoi2017]影魔
Description 影魔,奈文摩尔,据说有着一个诗人的灵魂.事实上,他吞噬的诗人灵魂早已成千上万.千百年来,他收集了各式各样的灵魂,包括诗人.牧师.帝王.乞丐.奴隶.罪人,当然,还有英雄.每一个灵 ...

python爬虫知乎

python爬虫知乎的更多相关文章

随机推荐

热门专题