Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化

代码如下：

 # coding:utf-8

 from selenium import webdriver

 import requests

 import sys

 import time

 from lxml import etree

 import cPickle

 import os

 # reload(sys)

 # sys.setdefaultencoding('utf-8')

 class Zhihu:

     def __init__(self,homeurl):

         self.homeurl = homeurl

     def save_session(self,session): #保存session，下次可直接使用，避免再次登录

         with open('session.txt','wb') as f:

             cPickle.dump(session, f)

             print "Cookies have been writed."

     def load_session(self):     #加载session

         with open('session.txt', 'rb') as f:

             s = cPickle.load(f)

         return s

     def GetCookies(self):       #初次登录用selenium模拟，并获得cookies

         browser = webdriver.Chrome()

         browser.get("https://www.zhihu.com/signin")

         browser.find_element_by_xpath("//main//div[2]/div[1]/form/div[1]/div[2]/div[1]/input").send_keys("")

         browser.find_element_by_xpath("//main//div[2]/div[1]/form/div[2]/div/div[1]/input").send_keys("xxxxxx")

         browser.find_element_by_xpath("//main//div[2]/div[1]/form/button").click()

         time.sleep(10)

         cookies = browser.get_cookies()

         browser.quit()

         return cookies

     def get_session(self):  #获取session

         s = requests.Session()

         if not os.path.exists('session.txt'):   #如果没有session，则创建一个，并且保存到文件中

             s.headers.clear()

             for cookie in self.GetCookies():

                 s.cookies.set(cookie['name'], cookie['value'])

             self.save_session(s)

         else:                                   #如果已存在session，则直接加载使用

             s = self.load_session()

         return s

     def Crawl(self):    #开始爬取

         s = self.get_session()

         html = s.get(self.homeurl).text

         html_tree = etree.HTML(html)

         items = html_tree.xpath('//main//div[1]/div[2]//div[@class="ContentItem AnswerItem"]/@data-zop')

         for item in items:

             content = eval(item)

             authorName = content['authorName']

             title = content['title']

             print authorName + "回答了：" + title

 zhihu = Zhihu('https://www.zhihu.com/')

 zhihu.Crawl()

Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化的更多相关文章

selenium 模拟登陆豆瓣，爬取武林外传的短评
selenium 模拟登陆豆瓣,爬去武林外传的短评: 在最开始写爬虫的时候,抓取豆瓣评论,我们从F12里面是可以直接发现接口的,但是最近豆瓣更新,数据是JS异步加载的,所以没有找到合适的方法爬去,于是 ...
python爬虫知乎问答
python爬虫知乎问答 import cookielibimport base64import reimport hashlibimport jsonimport rsaimport binasci ...
Selenium模拟登陆百度贴吧
Selenium模拟登陆百度贴吧 from selenium import webdriver from time import sleep from selenium.webdriver.commo ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
python selenium模拟登陆163邮箱。
selenium是可以模拟浏览器操作. 有些爬虫是异步加载的,通过爬取网页源码是得不到需要的内容.所以可以模拟浏览器去登陆该网站进行爬取操作. 需要安装selenium通过pip install xx ...
使用selenium模拟登陆淘宝、新浪和知乎
如果直接使用selenium访问淘宝.新浪和知乎这些网址.一般会识别出这是自动化测试工具,会有反制措施.当开启开发者模式后,就可以绕过他们的检测啦.(不行的,哭笑) 如果网站只是对windows.na ...
Python爬虫初学（三）—— 模拟登录知乎
模拟登录知乎这几天在研究模拟登录, 以知乎 - 与世界分享你的知识.经验和见解为例.实现过程遇到不少疑问,借鉴了知乎xchaoinfo的代码,万分感激! 知乎登录分为邮箱登录和手机登录两种方式,通过 ...
使用python - selenium模拟登陆b站
思路输入用户名密码点击登陆获取验证码的原始图片与有缺口的图片找出两张图片的缺口起始处拖动碎片功能代码段 # 使用到的库 from selenium import webdriver from ...

随机推荐

git-for-windows 安装无图标的问题
git-for-windows.ico 安装无图标的问题一. 问题表现: 桌面图标与右建菜单图标,所是未知文件的图标, 二. 问题解决: 在shard/git/ copy 一个ico 文件(如git ...
unity3D中使用Socket进行数据通信（一）
公司今年3D产品的工作中心主要集中在提高产品深度上,通过对竞争产品的分析,发现我们的缺陷在于多人在线与后台管理部分,多人在线使用unity自带的Network能够搞定,后台部分前段时间主要研究了下Sq ...
Redis 架构设计
1.设计层面 (1) 存储小而热的数据 (2) 结合业务数据特点,正确使用内存类型 (3) 冷.热数据分离 2.架构层面 (1) 提前做好容量(内存)规划 (2) 结合持久化模式优劣正确使用,一般建议 ...
mysqldumps 远程备份
普通模式 mysqldump -uroot -ppassword -h10.26.114.25 -P3306 --databases databasename > XXX.sql 多条在一起模式 ...
升级Jekyll 3.0
每一次的升级都得又一次折腾一次,jekyll也不例外从jekyll 2.5.2 升级为jekyll 3.0.1 错误一: jekyll 3.0.1 | Error: Permission denie ...
leetcode-Symmetric Tree 对称树
Given a binary tree, check whether it is a mirror of itself (ie, symmetric around its center). For e ...
shell脚本实现定时重启任务并输出日志信息
#!/bin/bash #当前日期 time=`date` pidno=`ps aux|grep adserver-beta|grep -v "grep"|awk '{print ...
Mjpg_Streamer 的移植
1. 移植mjpg-streamer a.1 移植libjpeg tar zxf libjpeg-turbo-1.2.1.tar.gz cd libjpeg-turbo-1.2.1 ./configu ...
html的table使用div创建
午休时间写了一个使用div创建table的案例 1.样式 <style> .table { display: table; } .tableRow { display: table-row ...
1verilog 位拼接
位拼接还可以用重复法来简化表达式.见下例: {4{w}} //这等同于{w,w,w,w} 位拼接还可以用嵌套的方式来表达.见下例: {b,{3{a,b}}} //这等同 ...

Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化

Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化的更多相关文章

随机推荐

热门专题