scrapy selenium 登陆zhihu

# -*- coding: utf-8 -*-

# 导入依赖包

import scrapy

from selenium import webdriver

import time

import json

# 构建spider自动生成的基本配置

class ZhihuSpider(scrapy.Spider):

    name = 'zhihu'

    allowed_domains = ['www.zhihu.com']

    start_urls = ['http://www.zhihu.com/']

    # 模拟请求的headers，非常重要，不设置也可能知乎不让你访问请求

    headers = {

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0",

        "HOST": "www.zhihu.com"

    }

    # 第一步：使用selenium登录知乎并获取登录后的cookies，cookies没失效时，只要初次请求执行一次

    def loginZhihu(self):

        # 登录网址

        loginurl='https://www.zhihu.com/signin'

        # 加载webdriver驱动，用于获取登录页面标签属性

        driver=webdriver.Chrome()

        driver.get(loginurl)

        # 方式1 通过填充用户名和密码

        # driver.find_element_by_name('username').clear()  # 获取用户名框

        # driver.find_element_by_name('username').send_keys(u'username')  # 填充用户名

        # driver.find_element_by_name('password').clear()  # 获取密码框

        # driver.find_element_by_name('password').send_keys(u'password')  # 填充密码

        # time.sleep(10)  # 执行休眠10s等待浏览器的加载

        # input("检查网页是否有验证码要输入，有就在网页输入验证码，输入完后在编辑器中回车；如果无验证码，则直接回车")

        # 非常关键，有时候知乎会在输入密码后弹出验证码，这一步可将代码执行暂时停滞

        # driver.find_element_by_css_selector("button[class='Button SignFlow-submitButton Button--primary Button--blue']").click()    # 点击登录按钮

        # 方式2 直接通过扫描二维码，如果不是要求全自动化，建议用这个，非常直接

        # 毕竟我们这一步只是想保存登录后的cookies，至于用何种方式登录，可以不必过于计较

        time.sleep(10) # 同样休眠10s等待页面

        input("请页面二维码，并确认登录后，点击回车：")   #点击二维码手机扫描登录

        # 通过上述的方式实现登录后，其实我们的cookies在浏览器中已经有了，我们要做的就是获取

        cookies = driver.get_cookies()   # Selenium为我们提供了get_cookies来获取登录cookies

        driver.close()  # 获取cookies便可以关闭浏览器

        # 然后的关键就是保存cookies，之后请求从文件中读取cookies就可以省去每次都要登录一次的

        # 当然可以把cookies返回回去，但是之后的每次请求都要先执行一次login没有发挥cookies的作用

        jsonCookies=json.dumps(cookies)   # 通过json将cookies写入文件

        with open('zhihuCookies.json','w') as f:

            f.write(jsonCookies)

        print(cookies)

        # return cookies

    # Scrapy使用保存ookies请求发现模块，看是否是登录之后的状态

    def question(self,response):

        with open('zhihu_find.html','w',encoding='utf-8') as f:

            f.write(response.text)   #写入文件，保存成.html文件

        pass

    def parse(self, response):

        pass

    # scrapy请求的开始时start_request

    def start_requests(self):

        zhihu_findUrl = 'https://www.zhihu.com/explore'

        self.loginZhihu() # 首次使用，先执行login，保存cookies之后便可以注释，

        # 毕竟每次执行都要登录还是挺麻烦的，我们要充分利用cookies的作用

        # 从文件中获取保存的cookies

        with open('zhihuCookies.json','r',encoding='utf-8') as f:

            listcookies=json.loads(f.read()) # 获取cookies

        # 把获取的cookies处理成dict类型

        cookies_dict = dict()

        for cookie in listcookies:

            # 在保存成dict时，我们其实只要cookies中的name和value，而domain等其他都可以不要

            cookies_dict[cookie['name']] = cookie['value']

        print(cookies_dict)

        # Scrapy发起其他页面请求时，带上cookies=cookies_dict即可，同时记得带上header值，

        yield scrapy.Request(url=zhihu_findUrl,cookies=cookies_dict,callback=self.question,headers=self.headers)

scrapy selenium 登陆zhihu的更多相关文章

知乎改版api接口之scrapy自动登陆
最近使用scrapy模拟登陆知乎,发现所有接口都发生变化了,包括验证码也发生了很大变化,通过抓包分析,记录下改版后的知乎模拟登陆,废话不多说,直接上代码,亲测有效 # -*- coding: utf- ...
Scrapy 模拟登陆知乎--抓取热点话题
工具准备在开始之前,请确保 scrpay 正确安装,手头有一款简洁而强大的浏览器, 若是你有使用 postman 那就更好了. Python 1 scrapy genspid ...
第三百四十三节，Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别第一步.首先下载,大神者也的倒立文字验证码识别程序下载地址:https://gith ...
Scrapy模拟登陆
1. 为什么需要模拟登陆? #获取cookie,能够爬取登陆后的页面 2. 回顾: requests是如何模拟登陆的? #1.直接携带cookies请求页面 #2.找接口发送post请求存储cooki ...
使用scrapy爬虫,爬取今日头条搜索吉林疫苗新闻（scrapy+selenium+PhantomJS）
这一阵子吉林疫苗案,备受大家关注,索性使用爬虫来爬取今日头条搜索吉林疫苗的新闻依然使用三件套(scrapy+selenium+PhantomJS)来爬取新闻以下是搜索页面,得到吉林疫苗的搜索信息, ...
使用scrapy爬虫,爬取今日头条首页推荐新闻（scrapy+selenium+PhantomJS）
爬取今日头条https://www.toutiao.com/首页推荐的新闻,打开网址得到如下界面查看源代码你会发现全是js代码,说明今日头条的内容是通过js动态生成的. 用火狐浏览器F12查看得知 ...
Scrapy+selenium爬取简书全站
Scrapy+selenium爬取简书全站环境 Ubuntu 18.04 Python 3.8 Scrapy 2.1 爬取内容文字标题作者作者头像发布日期内容文章连接文章ID 思路分 ...
爬虫入门之scrapy模拟登陆(十四)
注意:模拟登陆时,必须保证settings.py里的COOKIES_ENABLED(Cookies中间件) 处于开启状态 COOKIES_ENABLED = True或# COOKIES_ENABLE ...
Python3 Scrapy + Selenium + 阿布云爬取拉钩网学习笔记
1 需求分析想要一个能爬取拉钩网职位详情页的爬虫,来获取详情页内的公司名称.职位名称.薪资待遇.学历要求.岗位需求等信息.该爬虫能够通过配置搜索职位关键字和搜索城市来爬取不同城市的不同职位详情信息, ...

随机推荐

CentOS6.5安装RHive
1.安装RServe软件包(各个节点都要安装) [root@Hadoop-NN-01 mysofts] # R CMD INSTALL Rserve_1.7-2.tar.gz 2.设置环境变量 [ro ...
[pat]A1072 Gas Station
这道题的结点编号是字符串类型,处理的过程很有意思,用getID将house和GasStation进行区分 #include<bits/stdc++.h> using namespace s ...
cocos2d JS-(JavaScript) cc.each循环遍历对象
有了它,妈妈再也不用担心我的数组会越界啦!! each()方法能使DOM循环结构简洁,不容易出错.each()函数封装了十分强大的遍历功能,使用也很方便,它可以遍历一维数组.多维数组.DOM, JSO ...
java的运行机制及初步相关配置（jdk）
java的运行机制: 计算机高级语言的类型主要有编译型和解释型两种,而java语言是两种类型的结合. java首先利用文本编译器编写java源程序,源文件的后缀名为.java:再利用编译器(javac ...
42.PHP--电商网站的询价插件
windows下使用php自带的mail函数实现简单的邮件发送实例(QQ亲试成功) 功能实现:通过中间邮箱把客户的需求和产品信息全部发送到公司的业务员邮箱环境及工具: win7_64bit phps ...
sql注入学习笔记，什么是sql注入，如何预防sql注入，如何寻找sql注入漏洞，如何注入sql攻击（原）
(整篇文章废话很多,但其实是为了新手能更好的了解这个sql注入是什么,需要学习的是文章最后关于如何预防sql注入) (整篇文章废话很多,但其实是为了新手能更好的了解这个sql注入是什么,需要学习的是文 ...
gitlab4.0备份还原
一,备份备份默认路径查看: gitlab/config/gitlab.yml 中的backup: 默认tmp/backups ====>这个是gitlab/tmp/backups/ 可不是系 ...
sudo安装某一文件报错：E: 无法获得锁 /var/lib/dpkg/lock - open (11: 资源暂时不可用) E: 无法锁定管理目录(/var/lib/dpkg/)，是否有其他进程正占用它？
报错原因:资源被占用解决方法: sudo rm /var/cache/apt/archives/lock sudo rm /var/lib/dpkg/lock
centos安装java的jdk
1.下载 jdk-8u101-linux-x64.rpm http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads- ...
jdk自动安装java_home 无法修改解决方法
使用命令行修改 cmd下set java_home=D:\soft\java\jdk1.7.0_72 搞定

scrapy selenium 登陆zhihu

scrapy selenium 登陆zhihu的更多相关文章

随机推荐

热门专题