潭州课堂25班：Ph201805201 爬虫高级第五课 sclapy 框架日志和 settings 配置模拟登录(课堂笔记）

当要对一个页面进行多次请求时，

设 dont_filter = True 忽略去重

在 scrapy 框架中模拟登录

创建项目

创建运行文件

设请求头

# -*- coding: utf-8 -*-

import scrapy

import requests

class DoubanSpider(scrapy.Spider):

    name = 'douban'

    # allowed_domains = ['douban.com']

    # 登录页面

    start_urls = ['https://accounts.douban.com/login']

    log_url = 'https://accounts.douban.com/login'

    c_g_url = 'https://www.douban.com/'

    def parse(self, response):

        # 如果出现验证码

        # 验证码

        captcha_url = response.xpath('//img[@id="captcha_image"]/@src').extract_first()

        #  如果没有验证码

        if not captcha_url:

            print('没有验证码')

            data = {

                'source': 'index_nav',

                'redir':'https://www.douban.com/people/184159212/',

                'form_email': '13605938437',

                'form_password': '17906808lmlmlm',

                'login':'登录'

            }

        else:

            print('出现验证码')

            captcha_id = response.xpath('//input[@name="captcha-id"]/@value').extract_first()

            # 下载图片验证码

            with open('1.jpg','wb')as f:

                f.write(requests.get(captcha_url).content)

            captcha_solution = input('>>>>>')

            data = {

                'source': 'None',

                'redir':'https://www.douban.com/',

                'captcha-solution':captcha_solution,

                'captcha-id':captcha_id,

                'form_email': '账号',

                'form_password': '密码',

                'login':'登录'

            }

        # 返回url , 参数 , 回调函数

        yield scrapy.FormRequest(url=self.log_url,formdata=data,callback=self.login_after)

    def login_after(self,response):

        # 判断是否登录成功

        text ={

                'ck': '7nL_',

                'comment':' 哈哈....哈哈....哈哈....'

            }

        name = response.xpath('//*[@id="db-global-nav"]/div/div[1]/ul/li[2]/a/span[1]//text()').extract()

        if name:

            print('登录成功，当前用户是%s'%name)

            yield scrapy.FormRequest(url=self.c_g_url,formdata=text)

        else:print('登录失败')

潭州课堂25班：Ph201805201 爬虫高级第五课 sclapy 框架日志和 settings 配置模拟登录(课堂笔记）的更多相关文章

潭州课堂25班：Ph201805201 爬虫高级第七课 sclapy 框架爬前程网 (课堂笔)
定时对该网页数据采集,所以每次只爬第一个页面就可以, 创建工程 scrapy startproject qianchen 创建运行文件 cd qianchenscrapy genspider qian ...
潭州课堂25班：Ph201805201 爬虫高级第六课 sclapy 框架中间建与selenium对接 (课堂笔记）
因为每次请求得到的响应不一定是正常的, 也可以在中间建中与个类的方法,自动更换头自信,代理Ip, 在设置文件中添加头信息列表, 在中间建中导入刚刚的列表,和随机函数 class UserAgent ...
潭州课堂25班：Ph201805201 爬虫高级第四课 sclapy 框架 crawispider类 (课堂笔记）
以上内容以 spider 类获取 start_urls 里面的网页在这里平时只写一个,是个入口,之后通过 xpath 生成 url,继续请求, crawispider 中多了个 rules ...
潭州课堂25班：Ph201805201 爬虫高级第三课 sclapy 框架腾讯招聘案例 (课堂笔记）
到指定目录下,创建个项目进到 spiders 目录创建执行文件,并命名运行调试执行代码,: # -*- coding: utf-8 -*- import scrapy from ..items ...
潭州课堂25班：Ph201805201 爬虫高级第十三课代理池爬虫检测部分 (课堂笔记)
1,通过爬虫获取代理 ip ,要从多个网站获取,每个网站的前几页2,获取到代理后,开进程,一个继续解析,一个检测代理是否有用 ,引入队列数据共享3,Queue 中存放的是所有的代理,我们要分离出可用的 ...
潭州课堂25班：Ph201805201 爬虫高级第十一课 Scrapy-redis分布项目实战 (课堂笔
潭州课堂25班：Ph201805201 爬虫高级第十课 Scrapy-redis分布 (课堂笔记)
利用 redis 数据库,做 request 队列,去重,多台数据共享, scrapy 调度基于文件每户,默认只能在单机运行, scrapy-redis 默认把数据放到 redis 中,实现数据共享 ...
潭州课堂25班：Ph201805201 爬虫高级第八课 AP抓包 SCRAPY 的图片处理 (课堂笔记)
装好模拟器设置代理到 Fiddler 中, 代理 IP 是本机 IP, 端口是 8888, 抓包 APP斗鱼用 format 设置翻页
潭州课堂25班：Ph201805201 爬虫基础第五课（案例）豆瓣分析 (课堂笔记)
动态讲求 , 翻页参数: # -*- coding: utf-8 -*- # 斌彬电脑 # @Time : 2018/9/1 0001 3:44 import requests,json class ...

随机推荐

Windows域帐户
域的直观优点: 1.域帐户可以在任意一台已经加入域的电脑上登录. 2.将域用户组加入到SQL Server登录里,域用户组内所有人员便都可以使用域用户登录数据库,继承相关权限. 3.域用户登录Team ...
所有Windows7下游戏的全屏问题
Win键+R键,打开运行窗口,输入regedit 回车,这样就打开了注册表编辑器,然后,定位到以下位置:HKEY_LOCAL_MACHINE\SYSTEM\ControlSet001\Control\ ...
mysql系列五、mysql中having的用法
HAVING 子句对 GROUP BY 子句设置条件的方式与 WHERE 和 SELECT 的交互方式类似.WHERE 搜索条件在进行分组操作之前应用:而HAVING 搜索条件在进行分组操作之后应用. ...
【转】CString与string、char*的区别和转换
我们在C++的开发中经常会碰到string.char*以及CString,这三种都表示字符串类型,有很多相似又不同的地方,常常让人混淆.下面详细介绍这三者的区别.联系和转换: 各自的区别 char*: ...
java项目中oracle配置说明
配置信息: #oracle database settings jdbc.url::orcl jdbc.username=cognos_data jdbc.password=cognos_data j ...
mysql通过centos本地命令行还原数据库出现乱码问题
将sql文件上传到centos系统中,还原mysql数据库,发现是乱码 mysql -h10.11.8.62 -uroot -p dbtest </data/dbsql/dbtest.sql 数 ...
javascript 判断属性是否存在
判断一个实例是否存在某个属性的方法使用 "in" var Student = { name: "Robot", height: 1.2, sex: " ...
解决Javascript中$(window).resize()多次执行
有些时候,我们需要在浏览器窗口发生变化的时候,动态的执行一些操作,比如做自适应页面时的适配.这个时候,我们需要在窗口拖动的时候去执行代码.但是有些时候,执行的操作比较复杂,我们只希望在窗口拖动完毕之后 ...
JavaScript对象简介（一）
本节介绍js的9个对象:Array数组对象 Boolean(true false) Date日前对象 Math 数学对象 Number 数字对象 String 字符串对象 RegExp 正则表达式对象 ...
C++11 AUTO 类型实践
auto在C++11中引入,为大家带来方便. 具体使用及注意事项参考: https://blog.csdn.net/xiaoquantouer/article/details/51647865 htt ...

潭州课堂25班：Ph201805201 爬虫高级 第五课 sclapy 框架 日志和 settings 配置 模拟登录(课堂笔记）

当要对一个页面进行多次请求时，

在 scrapy 框架中模拟登录

潭州课堂25班：Ph201805201 爬虫高级 第五课 sclapy 框架 日志和 settings 配置 模拟登录(课堂笔记）的更多相关文章

随机推荐

热门专题

潭州课堂25班：Ph201805201 爬虫高级第五课 sclapy 框架日志和 settings 配置模拟登录(课堂笔记）

潭州课堂25班：Ph201805201 爬虫高级第五课 sclapy 框架日志和 settings 配置模拟登录(课堂笔记）的更多相关文章