利用百度OCR实现验证码自动识别

在爬取网站的时候都遇到过验证码，那么我们有什么方法让程序自动的识别验证码呢？其实网上已有很多打码平台，但是这些都是需要money。但对于仅仅爬取点数据而接入打码平台实属浪费。所以百度免费ocr正好可以利用。（每天500次免费）

1、注册百度账号、百度云管理中心创建应用、生成AppKey、SecretKey（程序调用接口是要生成access_token）

2、利用AppKey、SecretKey生成access_token
向授权服务地址https://aip.baidubce.com/oauth/2.0/token发送请求（推荐使用POST）并在URL中带上以下参数：
grant_type：必须参数，固定为client_credentials；
client_id：必须参数，应用的API Key；
client_secret：必须参数，应用的Secret Key
代码如下：

/**

     * 获取AccessToken

     * 百度开发

     * AppId:

     * APIKey:

     * SecretKey:

     *

     * @return

     */

    public static String getAccessToken() {

        String accessToken = "";

        HttpRequestData httpRequestData = new HttpRequestData();

        HashMap<String, String> params = new HashMap<>();

        params.put("grant_type", "client_credentials");

        params.put("client_id", "xxxxxx");

        params.put("client_secret", "xxxxxx");

        httpRequestData.setRequestMethod("GET");

        httpRequestData.setParams(params);

        httpRequestData.setRequestUrl("https://aip.baidubce.com/oauth/2.0/token");

        HttpResponse response = HttpClientUtils.execute(httpRequestData);

        String json = "";

        try {

            json = IOUtils.toString(response.getEntity().getContent());

        } catch (IOException e) {

            e.printStackTrace();

        }

        if (response.getStatusLine().getStatusCode() == 200) {

            JSONObject jsonObject = JSONObject.parseObject(json);

            if (jsonObject != null && !jsonObject.isEmpty()) {

                accessToken = jsonObject.getString("access_token");

            }

        }

        return accessToken;

    }

3、请求百度ocr通用文字识别API（下面以百度通用识别api识别为例）
请求API的URL https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic
请求方法 POST
请求URL参数 access_token
请求头（Header） Content-Type application/x-www-form-urlencoded
Body中放置请求参数，主要参数详情如下：

image : 图像数据，base64编码，要求base64编码后大小不超过4M，最短边至少15px，最长边最大4096px,支持jpg/png/bmp格式，当image字段存在时url字段失效
url : 图片完整URL，URL长度不超过1024字节，URL对应的图片base64编码后大小不超过4M，最短边至少15px，最长边最大4096px,支持jpg/png/bmp格式，当image字段存在时url字段失效

/**

     * 获取识别验证码

     * @param imageUrl

     * @return

     */

    public static String OCRVCode(String imageUrl){

        String VCode = "";

        if (StringUtils.isBlank(ACCESS_TOKEN)) {

            logger.error("accessToken为空");

            return VCode;

        }

        OCRUrl = OCRUrl + "?access_token=" + ACCESS_TOKEN;

        HashMap<String, String> headers = new HashMap<>();

        headers.put("Content-Type", "application/x-www-form-urlencoded");

        HashMap<String, String> params = new HashMap<>();

        imageUrl = ImageBase64ToStringUtils.imageToStringByBase64(imageUrl);

        params.put("image", imageUrl);

        HttpRequestData httpRequestData = new HttpRequestData();

        httpRequestData.setHeaders(headers);

        httpRequestData.setRequestMethod("post");

        httpRequestData.setParams(params);

        httpRequestData.setRequestUrl(OCRUrl);

        HttpResponse response = HttpClientUtils.execute(httpRequestData);

        String json = "";

        if (response.getStatusLine().getStatusCode() == 200) {

            try {

                json = IOUtils.toString(response.getEntity().getContent());

                JSONObject jsonObject = JSONObject.parseObject(json);

                JSONArray wordsResult = jsonObject.getJSONArray("words_result");

                VCode = wordsResult.getJSONObject(0).getString("words");

            } catch (IOException e) {

                logger.error("请求识别失败！", e);

            }

        }

        return VCode;

    }

对图片进行base64编码字符

/**

     * 将本地图片进行Base64位编码

     * @param imageFile

     * @return

     */

    public static String encodeImgageToBase64(String imageFile) {

        // 其进行Base64编码处理

        byte[] data = null;

        // 读取图片字节数组

        try {

            InputStream in = new FileInputStream(imageFile);

            data = new byte[in.available()];

            in.read(data);

            in.close();

        } catch (IOException e) {

            e.printStackTrace();

        }

        // 对字节数组Base64编码

        return Base64Util.encode(data);

    }

4、返回结果以json方式返回

{

    "log_id": 2471272194,

    "words_result_num": 2,

    "words_result":

    [

        {"words": " TSINGTAO"},

        {"words": "青島睥酒"}

    ]

}

项目github地址：https://github.com/xwlmdd/ipProxyPool
注：ocr图片识别模块在这个项目里的一个工具类

利用百度OCR实现验证码自动识别的更多相关文章

如何利用百度orc实现验证码自动识别
在爬取网站的时候都遇到过验证码,那么我们有什么方法让程序自动的识别验证码呢?其实网上已有很多打码平台,但是这些都是需要money.但对于仅仅爬取点数据而接入打码平台实属浪费.所以百度免费orc正好可以 ...
python爬虫_简单使用百度OCR解析验证码
百度技术文档首先要注册百度云账号: 在首页,找到图像识别,创建应用,选择相应的功能,创建安装接口模块: pip install baidu-aip 简单识别一: 简单图形验证码: 图片: from ...
第三百三十五节，web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码
第三百三十五节,web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码打码接口文件 # -*- coding: cp936 -*- import sys import os ...
利用百度文字识别API识别图像中的文字
本文将会介绍如何使用百度AI开放平台中的文字识别服务来识别图片中的文字.百度AI开放平台的访问网址为:http://ai.baidu.com/ ,为了能够使用该平台提供的AI服务,你需要事先注册一 ...
reCAPTCHA OCR 详解 , 验验证, OCR（光学自动识别）
WEB安全专题 ‍‍reCAPTCHA的诞生及意义‍‍ CMU(卡耐基梅隆大学)设计了一个名叫reCAPTCHA的强大系统,让电脑去向人类求助.具体做法是:将OCR(光学自动识别)软件无法识别的文字扫 ...
利用htmlunit登陆带验证码图片的网站
http://htsoft.org/html/y2011/822_using-htmlunit-landing-site-with-captcha-image.html 利用htmlunit登陆带验证 ...
Ocr答题辅助神器 OcrAnswerer4.x，通过百度OCR识别手机文字，支持屏幕窗口截图和ADB安卓截图，支持四十个直播App,可保存题库
http://www.cnblogs.com/Charltsing/p/OcrAnswerer.html 联系qq:564955427 最新版为v4.1版,开放一定概率的八窗口体验功能,请截图体验(多 ...
百度OCR识别示例
文章地址:https://www.cnblogs.com/Charltsing/p/OcrAnswerer.html 最新版为v4.1版,开放一定概率的八窗口体验功能,请截图体验(多点几次图片).更新 ...
python截图+百度ocr（图片识别）+ 百度翻译
一直想用python做一个截图并自动翻译的工具,恰好最近有时间就在网上找了资料,根据资料以及自己的理解做了一个简单的截图翻译工具.整理一下并把代码放在github给大家参考.界面用python自带的G ...

随机推荐

npm报错没有权限
在npm install经常会报错没有权限这个时候需要清除一下缓存 npm cache clean --force
Javascript \x 反斜杠x 16进制编解码
js 里 \x 开头的通常是16进制编码的数据,下面代码实现编解码: 解码 function decode(str){ return str.replace(/\\x(\w{2})/g,functio ...
MySQL InnoDB中的事务隔离级别和锁的关系
前言: 我们都知道事务的几种性质,数据库为了维护这些性质,尤其是一致性和隔离性,一般使用加锁这种方式.同时数据库又是个高并发的应用,同一时间会有大量的并发访问,如果加锁过度,会极大的降低并发处理能力. ...
excel追加数据
原本是想通过读取已存在的文件的行然后直接添加保存,发现结果会被覆盖. 后来查找方法发现需要复制原表. 函数参数: list:要添加的数据 filename:目标文件 sheet_index:默认表的第 ...
从入门到深入FIDDLER 2
在开发的过程中使用过不少的HTTP网络抓包工具,如:HTTPAnalyzer,HttpWatch. Fiddler几乎囊括了大部分的抓包请求,当然最给力的还是它的断点调试功能,尤其还有使用本地文件代替 ...
vue中的provide/inject的学习使用
irst:定义一个parent component ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 <template> <div> ...
三色抽卡游戏博弈论nim
你的对手太坏了!在每年的年度三色抽卡游戏锦标赛上,你的对手总是能打败你,他的秘诀是什么? 在每局三色抽卡游戏中,有n个卡组,每个卡组里所有卡片的颜色都相同,且颜色只会是红(R).绿(G).蓝(B)中的 ...
radio按钮单选效果
必须有name,并且是同一值,判断效果可用value值确定
爬虫之案列1补充（pipelines优化）
1. 先打开settings.py文件将 'ITEM_PIPELINES'启动(取消注释即可) 2. spider代码 # -*- coding: utf-8 -*- import scrapy im ...
HDFS常用API（2）
一.读取HDFS文件数据.将本地文件写入HDFS中文件.使用IOUtils读写数据 ** * @author: PrincessHug * @date: 2019/3/18, 17:24 * @Blo ...

利用百度OCR实现验证码自动识别

利用百度OCR实现验证码自动识别的更多相关文章

随机推荐

热门专题