Python爬虫-尝试使用人工和OCR处理验证码模拟登入

刚开始在网上看别人一直在说知乎登入首页有有倒立的汉字验证码，我打开自己的知乎登入页面，发现只有账号和密码，他们说的倒立的验证码去哪了，后面仔细一想我之前登入过知乎，应该在本地存在cookies,然后我将cookies删除掉果然就有需要验证码了：

分析-01.png

参考了大多数的意见，可以模拟登入移动端，验证码形式是我们常见的字母数字组合，避开这个点击倒立的验证码形式，然后我就在移动端抓包了,可以拿到验证码图片的包，我们可以请求这个URL拿到每次的验证码：

分析-02.png

这个URL的结构是:https://www.zhihu.com/captcha.gif?r=xxx&type=login

分析-03.png

def get_xsrf():
    url='https://www.zhihu.com/signin?next=/'
    html=session.get(url=url,headers=headers).text
    pattern=re.compile('.*?<input type="hidden" name="_xsrf" value="(.*?)"/>', re.S)
    _xsrf=re.search(pattern,html).group(1)
    if _xsrf:
        print('_xsrf获取成功:'+ _xsrf)
        return _xsrf
    else:
        print('_xsrf获取失败')

对于captcha，就是验证码了，在刚开始的时候也提到了，可以请求相应的URL，拿到每次所需的验证码，人工来识别验证码的好处就是准确率高，这里我尝试使用了，人工识别的方法：

验证码图片会下载至项目所在的文件夹，打开图片，输入验证码即可

def get_captcha():
    t=int(time.time()*1000)
    url='https://www.zhihu.com/captcha.gif?r='+str(t)+'&type=login'
    content=session.get(url=url,headers=headers).content
    with open('captcha.jpg','wb') as f:
        f.write(content)
    im=Image.open('captcha.jpg')
    im.show()
    time.sleep(5)
    im.close()
    return input('请输入验证码:')

后面我又尝试使用OCR(Optical Character Recogintion，光学字符识别)，所用到的包是pytesseract,看能不能够自动识别，但是显然效果是很差的，在此也记录一下：

def get_captcha():
    t=int(time.time()*1000)
    url='https://www.zhihu.com/captcha.gif?r='+str(t)+'&type=login'
    content=session.get(url=url,headers=headers).content
    with open('captcha.jpg','wb') as f:
        f.write(content)
    im=Image.open('captcha.jpg')             #把彩色图像转化成灰度图像
    gray=im.convert('L')
    gray.show()
    threshold=200                            #二值化处理
    table=[]
    for i in range(256):
        if i < threshold:
            table.append(0)
        else:
            table.append(1)
    out=gray.point(table,')
    out.show()
    out.save('captcha_thresholded.jpg')
    th=Image.open('captcha_thresholded.jpg')  #使用Tesseract进行图片识别
    print(pytesseract.image_to_string(th))
    return pytesseract.image_to_string(th)

试了几次，OCR识别的结果都是有问题的，结果是这样的：

分析-07.png

Python爬虫-尝试使用人工和OCR处理验证码模拟登入的更多相关文章

python爬虫_简单使用百度OCR解析验证码
百度技术文档首先要注册百度云账号: 在首页,找到图像识别,创建应用,选择相应的功能,创建安装接口模块: pip install baidu-aip 简单识别一: 简单图形验证码: 图片: from ...
python爬虫实战（四）--------豆瓣网的模拟登录（模拟登录和验证码的处理----scrapy）
在利用scrapy框架爬各种网站时,一定会碰到某些网站是需要登录才能获取信息. 这两天也在学习怎么去模拟登录,通过自己码的代码和借鉴别人的项目,调试成功豆瓣的模拟登录,顺便处理了怎么自动化的处理验证码 ...
Python爬虫学习笔记之微信宫格验证码的识别(存在问题)
本节我们将介绍新浪微博宫格验证码的识别.微博宫格验证码是一种新型交互式验证码,每个宫格之间会有一条指示连线,指示了应该的滑动轨迹.我们要按照滑动轨迹依次从起始宫格滑动到终止宫格,才可以完成验证,如 ...
python爬虫之selenium+打码平台识别验证码
1.常用的打码平台:超级鹰.打码兔等 2.打码平台在识别图形验证码和点触验证码上比较好用 (1)12306点触验证码 from selenium import webdriver from selen ...
python爬虫学习，使用requests库来实现模拟登录4399小游戏网站。
1.首先分析请求,打开4399网站. 右键检查元素或者F12打开开发者工具.然后找到network选项, 这里最好勾选perserve log 选项,用来保存请求日志.这时我们来先用我们的账号密码登陆 ...
Python3.7爬虫：实时api(百度ai)检测验证码模拟登录(Selenium)页面
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_134 今天有同学提出了一个需求,老板让自动登录这个页面:https://www.dianxiaomi.com/index.htm, ...
Python爬虫合集：花6k学习爬虫，终于知道爬虫能干嘛了
爬虫Ⅰ:爬虫的基础知识爬虫的基础知识使用实例.应用技巧.基本知识点总结和需要注意事项爬虫初始: 爬虫: + Request + Scrapy 数据分析+机器学习 + numpy,pandas,ma ...
网络爬虫之requests模块的使用+Github自动登入认证
本篇博客将带领大家梳理爬虫中的requests模块,并结合Github的自动登入验证具体讲解requests模块的参数. 一.引入: 我们先来看如下的例子,初步体验下requests模块的使用: ...
爬虫破解知乎登入(不使用Selenium模块)
一.分析知乎完成登入的步骤首先获得cookies(如果不获得后面验证码无法获得) 获得验证码提交登入相关内容前两步简单稍微细心寻找规律即可其中最难的是第三步应该他前端进行了js加密这里没什 ...

随机推荐

Dll的编写在unity中加载
1. 在VS中新建Dll项目 2.在头文件中对函数进行声明 extern "C" int _declspec(dllexport) testunity(); 3.在源文件中写函数体 ...
部署与管理ZooKeepe
1.部署本章节主要讲述如何部署ZooKeeper,包括以下三部分的内容: 1. 系统环境 2. 集群模式的配置 3. 单机模式的配置系统环境和集群模式配置这两节内容大体讲述了如何部署一个能够用于生 ...
MongoDB下载安装测试及使用
1.下载安装 64位:mongodb-win32-x86_64-enterprise-windows-64-2.6.4-signed.msi 余数为1的 db.collection.find({ &q ...
err：安装程序试图挂载映像 1（缺少ISO 9660图像）
一般出现此错误是因为你没有把相应的CentOS-6.4-i386-bin-DVD1.iso文件放入到你装系统所引导的盘中,造成找不到挂载映像文件. ubuntu-12.04.3-desktop-i38 ...
javascript语言扩展:可迭代对象（4）
js 1.7中还包含一个数组推导(array comprehension)的特性,如果不在最后介绍它好像显得不怎么完整. 数组推导其实很简单: let a = [x*x for(x in range( ...
二叉树（LeetCode） C++相关知识代码系列1
0.二叉树最大深度原题目:Given a binary tree, find its minimum depth.The minimum depth is the number of nodes a ...
HTML5的canvas标签制作黑客帝国里的简单画面
1.加入canvas标签 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"/> ...
eclipse中英文（等各国语言）版本转换发放
eclipse界面语言的切换方法 1.该方法只支持安装过中文包的eclipse(其实中文包中几乎包含了全世界所有的语言,只是调用了其中的中文简体而已) 2.在桌面的快捷方式中目标的地址后面加上参数-n ...
javascript学习(二)javascript常见问题总结
在js使用过程中,经常会碰到一些问题,本人利用闲暇时间整理了一些常见问题的解决方法,贴出来和大家分享,有需要的朋友可以参考下 1.JS中方法和变量都是区分大小写的 2.单引号.双引号在JS中没有特殊 ...
NIO 多线程
本文可看成是对Doug Lea Scalable IO in Java一文的翻译. 当前分布式计算 Web Services盛行天下,这些网络服务的底层都离不开对socket的操作.他们都有一个共同的 ...

Python爬虫-尝试使用人工和OCR处理验证码模拟登入

Python爬虫-尝试使用人工和OCR处理验证码模拟登入的更多相关文章

随机推荐

热门专题