scrapy模拟浏览器爬取验证码页面

使用selenium模块爬取验证码页面，selenium模块需要另外安装这里不讲环境的配置，我有一篇博客有专门讲ubuntn下安装和配置模拟浏览器的开发

spider的代码

 # -*- coding: utf-8 -*-

 from selenium import webdriver

 import scrapy

 from scrapy.selector import Selector

 from time import sleep

 class MydoubanSpider(scrapy.Spider):

     name = "mydouban_moni"

     def __init__(self, ):

         super(MydoubanSpider, self).__init__()

         self.start_urls = ['https://www.douban.com/']

         self.driver = webdriver.Chrome()

         self.driver.get("https://accounts.douban.com/login")

         sleep(1)

     def parse(self, response):

         yanzhengma = raw_input('请输入验证码：')

         name = self.driver.find_element_by_xpath('//*[@id="email"]')

         name.send_keys('username用户名')

         password = self.driver.find_element_by_xpath('//*[@id="password"]')

         password.send_keys('password密码')

         key = self.driver.find_element_by_xpath('//*[@id="captcha_field"]')

         key.send_keys(yanzhengma)

         summit = self.driver.find_element_by_xpath('//*[@id="lzform"]/div[7]/input')

         summit.click()

         sleep(1)

         sel = Selector(text=self.driver.page_source)

         myname = sel.response.xpath('//*[@id="db-global-nav"]/div/div[1]/ul/li[2]/a/span[1]//text()').extract()

         print ''.join(myname)

         print '====================='

         pass

　　如果出现这个HTTP status code is not handled or not allowed 错误说明还有spider的头需要配置这个可以用伪装代理解决在setting.py中设置

github完整代码地址：https://github.com/sea1234/myyangzhengma

scrapy模拟浏览器爬取验证码页面的更多相关文章

Python Requests库入门——应用实例-京东商品页面爬取+模拟浏览器爬取信息
京东商品页面爬取选择了一款荣耀手机的页面(给华为打广告了,荣耀play真心不错) import requests url = "https://item.jd.com/7479912.ht ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
Python爬虫之selenium爬虫，模拟浏览器爬取天猫信息
由于工作需要,需要提取到天猫400个指定商品页面中指定的信息,于是有了这个爬虫.这是一个使用 selenium 爬取天猫商品信息的爬虫,虽然功能单一,但是也算是 selenium 爬虫的基本用法了. ...
python模拟浏览器爬取数据
爬虫新手大坑:爬取数据的时候一定要设置header伪装成浏览器!!!! 在爬取某财经网站数据时由于没有设置Header信息,直接被封掉了ip 后来设置了Accept.Connection.User-A ...
java 使用htmlunit模拟登录爬取新浪微博页面
mport java.io.IOException;import java.net.MalformedURLException;import com.gargoylesoftware.htmlunit ...
关于爬虫的日常复习（10）—— 实战：使用selenium模拟浏览器爬取淘宝美食
3.使用Selenium模拟浏览器抓取淘宝商品美食信息
# 使用selenium+phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏览器翻页,并 ...
Scrapy爬取静态页面
Scrapy爬取静态页面安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可终端下: #python2 sudo p ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...

随机推荐

编码转换 Native / UTF-8 / Unicode
Native/Unicode Native 这是一个例子,this is a example Unicode 这是一个例子,this is a example Native/UTF-8 Nativ ...
【Demo】jQuery 设置简单的分页
功能描述: (1)设定起始页位置和每页的大小: (2)绑定自定义的分页事件,在事件中隐藏当前页不需要显示的行: (3)为表格添加页链接: (4)绑定链接的单击事件,在事件中触发表格分页事件. 效果图: ...
阅读《大型网站技术架构：核心原理与案例分析》第五、六、七章，结合《XXX重大技术需求征集系统》，列举实例分析采用的可用性和可修改性战术，将上述内容撰写成一篇1500字左右的博客阐述你的观点。
这三章主要讲述的是网站的可用性.伸缩性和可扩展性. 首先,网站的可用性描述网站可有效访问的特性,相比于网站的其他非功能特性,网站的可用性更容易引起人们的注意,尤其是大型网站的可用性,如果大公司的网站出 ...
linux命令权限
linux-命令权限 1) 新建用户natasha,uid为1000,gid为555,备注信息为“master” 2) 修改natasha用户的家目录为/Natasha 3) 查看用户信息 ...
【zznu-2060】 Minsum Plus(最小正子段和)
题目描述题意简单到令人发指! 序列A由N个整数组成,从中选出一个连续的子序列,使得这个子序列的和为正数,且和为所有和大于零的子序列中的最小值. 将这个值输出,若无解,输出no solution. 输 ...
转载-lvs官方文档-Linux服务器集群系统（二）
Linux服务器集群系统(二) LVS集群的体系结构章文嵩 (wensong@linux-vs.org) 2002 年 4 月本文主要介绍了LVS集群的体系结构.先给出LVS集群的通用体系结构,并 ...
Alpha冲刺(2/10)
前言队名:拖鞋旅游队组长博客:https://www.cnblogs.com/Sulumer/p/9960487.html 作业博客:https://edu.cnblogs.com/campus/ ...
Android支持Split Apks后，如何获得指定包名下的所有类
从Android5.0以后,支持多个apk动态部署,这导致以前通过单一apk获取包路径下的所有类的方法失效,不过稍微修改一下原先的代码就可以,代码如下 public static final List ...
vs 添加第三方库lib的两种方法
方法一1.代码: 方法二2.配置: 首先包含头文件 #include “../DuiLib/UIlib.h” 连接器->常规-->附加库目录.即是将lib所在的目录,千万要记得,还要写一处 ...
GPU编程自学5 —— 线程协作
深度学习的兴起,使得多线程以及GPU编程逐渐成为算法工程师无法规避的问题.这里主要记录自己的GPU自学历程. 目录 <GPU编程自学1 -- 引言> <GPU编程自学2 -- CUD ...

scrapy模拟浏览器爬取验证码页面

scrapy模拟浏览器爬取验证码页面的更多相关文章

随机推荐

热门专题