selenium 淘宝登入反爬虫解决方案（亲测有效）

前言

　　目前在对淘宝进行数据爬取的时候都会碰到，登入时的滑块问题，无论是手动还是脚本都不成功。这里的很重要一个原因是很多的网站都对selenium做了反爬虫机制。接下来是笔者参考网上的网友们的方法亲自测试的一个方法，希望可以帮助到大家。注意这里使用的浏览器是Chrome。所以使用的驱动也是chromedriver

一，淘宝反扒js

　　在淘宝登入页面加载的js中，可以看到怎么一行代码，如下图：

　　上图的这一行代码就对selenium进行了检测。所以我们只需要修改驱动的改行代码就可以。

二，修改chromedriver.exe

　　　vim chromedriver.exe

cdc_通过键入/cdc_并按下来搜索return。
按下启用编辑a。
删除任意数量的内容$cdc_lasutopfhvcZLmcfl并用等量字符替换已删除的内容。如果不这样做，chromedriver将会失败。
完成编辑后，按esc。
要保存更改并退出，请键入:wq!并按return。

　　完成上述步骤就可以了：下图是笔者的修改，就将最后一个字符l 改为 a

三，测试代码

　　注意下面代码的：chrome_option 以开发者模式，否则依然需要滑块

#!/usr/bin/env python

# -*- coding: utf-8 -*-

from selenium import webdriver

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.common.by import By

from selenium.webdriver.support import expected_conditions as EC

chrome_option = webdriver.ChromeOptions()

chrome_option.add_experimental_option('excludeSwitches', ['enable-automation'])  # 以开发者模式

driver = webdriver.Chrome(options=chrome_option)

wait = WebDriverWait(driver, 10)

def search():

    driver.get('https://www.taobao.com')

    try:

        search_input = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, '#q'))

        )

        search_submit = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button'))

        )

    finally:

        pass

    search_input.send_keys('美食'.decode('utf-8'))

    search_submit.click()

    login()

def login():

    try:

        login_before = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, '#J_QRCodeLogin > div.login-links > a.forget-pwd.J_Quick2Static'))

        )

        login_before.click()

        username = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, '#TPL_username_1'))

        )

        password = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, '#TPL_password_1'))

        )

        username.send_keys('xxxxx')  # 用户名

        password.send_keys('xxxxx')  # 密码

        login_submit = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, '#J_SubmitStatic'))

        )

        login_submit.click()

    finally:

        pass

def main():

    search()

if __name__ == '__main__':

    main()

selenium 淘宝登入反爬虫解决方案（亲测有效）的更多相关文章

python获取淘宝登入cookies
重点:去新浪微博登入接口登入一.代码 # coding=utf-8 import requests from selenium.webdriver.common.by import By from ...
pyppeteer硬钢掉淘宝登入的滑块验证
完整代码我也不好公布,我可以给你们思路,以及部分代码动动脑子看看文档应该也能搞定一.初始化Chromium浏览器相关属性 browser = await pyppeteer.launch({'hea ...
简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家：淘宝天猫商品搜索爬虫自动化工具（第一篇）
Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇) 淘宝改字段,Bugfix,查看https://github.com/hunterhug/taobaoscrapy.git 由于Gith ...
MyEclipse8.6启动后提示内存不足的解决方案(亲测，完美解决)
转自:http://www.bubuko.com/infodetail-1625857.html 最近可能由于公司项目大了,启动MyEclipse后经常提示内存不足的警告框,如下: 其实点击close ...
Python攻破淘宝网各类反爬手段，采集淘宝网ZDB（女用）的销量！
声明: 由于某些原因,我这里会用手机代替,其实是一样的! 环境: windows python3.6.5 模块: time selenium re 环境与模块介绍完毕后,就可以来实行我们的操作了. 第 ...
Selenium与phantomJS 登入豆瓣有bug
# -*- coding:utf-8 -*- from selenium import webdriver from selenium.webdriver.common.keys import Key ...
selenium 淘宝商品分页
通过这行代码确定每页的下一页,因为从淘宝的第4页 xpath就匹配不出下一页的位置#这是面向对象写法,不用的把self. 去掉即可next_button = self.driver.find_elem ...
office2010使用mathtype时，出现未找到MathPage.WLL解决方案--亲测有用
安装mathtype时,出现如下错误: 解决方案: 参考此网址中的内容:http://www.mathtype.cn/wenti/word-jianrong.html 首先需要找到在Word加载的两个 ...
secureCRT无操作自动登出时间修改（亲测可用）
转自:http://blog.sina.com.cn/s/blog_6bcf42010102vlt9.html secureCRT连接机器经常会因为一段时间无操作就退出了,提示timed out wa ...

随机推荐

产品设计利器--axure
1.axute的使用方法: 2.普通线框图的使用: 3.高保真原型图: 4.交互思维. Axure RP8 是美国Axure Software Solution公司的旗舰产品,是一个快速的原型工具,主 ...
[转]java List和数组相互转换方法
原文地址:https://blog.csdn.net/zjx2016/article/details/78273192 前言在java项目中数组和list集合(这里指ArrayList)经常需要互相转 ...
Unity输出PC端（Windows）拖拽文件到app中
需求:给策划们写一个PC端(Window)的Excel导表工具.本来用OpenFile打开FileExplorerDialog后让他们自己选择想要添加的Excel文件就行了,结果有个需求是希望能拖拽E ...
MongoDB GridFS 存储文件
使用MongoDB的GridFS方式. CSDN: https://blog.csdn.net/qq_32657967/article/details/81534259官方文档: https://do ...
chrome 下 input[file] 元素cursor设置pointer不生效的解决
https://jingyan.baidu.com/article/48b558e32fabb67f38c09a81.html 环境是chrome浏览器,今天发现为html网页中的input [fil ...
(转) 开运算opening_circle和闭运算closing_circle的异同
从去除毛刺的策略看开运算opening_circle和闭运算closing_circle的异同例一:毛刺在往外凸的面上策略1:分割出黑色部分,然后通过开运算去掉毛刺,再通过原黑色部分区域减去开运算 ...
oracle 优化or 更换in、exists、union all几个字眼
oracle 优化or 更换in.exists.union几个字眼.测试没有问题! 根据实际情况选择相应的语句是.假设指数,or全表扫描,in 和not in 应慎用.否则会导致全表扫描. sele ...
养成良好的C++编程习惯（持续更新）
c++语言的灵活是建立在对编程者个人的编程素质的严格要求基础上的,好的C++编程习惯能避免很多问题. 没有好的编程习惯,极有可能编写一行代码,编译器能报十几个错误,而且 ...
阿里云负载均衡SLB 七层https协议 nginx 获取真实IP
https://www.cnblogs.com/baylorqu/p/8565667.html https://help.aliyun.com/document_detail/54007.html
【nginx】解决Nginx重启时提示nginx: [emerg] bind() to 0.0.0.0:80错误
Nginx是一款轻量级的Web服务器,特点是占有内存少,并发能力强,因而使用比较广泛,蜗牛今天在一个VPS上重启Nginx时提示“nginx: [emerg] bind() to 0.0.0.0:80 ...