JAVA OCR图片识别

今天闲来无聊，尝试了一下OCR识别，尝试了以下三种方案：

1.直接使用业界使用最广泛的Tesseract-OCR。

Tesseract项目最初由惠普实验室支持，1996年被移植到Windows上，1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源。2006年到现在，都由Google公司开发及维护。

2.使用基于Tesseract-OCR封装的Tess4j

3.调用百度云OCR服务实现（AT两家太贵，百度云文字识别服务提供每个月15000次的免费调用）。

先说测试结果：

毫无意外的，百度识别率最高，如果要自己实现，原生tesseract-ocr比tess4j识别率高出很多。

具体实现：

1.百度云OCR地址：https://cloud.baidu.com/product/ocr.html

JAVA开发指南：https://cloud.baidu.com/doc/OCR/OCR-Java-SDK.html

2.直接使用Tesseract-OCR，还有一个好处就是可以进行针对性的训练，提高识别率，我没有尝试过。

参考：

Windows环境安装tesseract-ocr 4.00并配置环境变量

注意：可以去github下载最新语言包文件，语言包是放在 tessdata文件夹，文件比较大，下载比较慢。

java文字识别技术（亲测，识别率很高）

java 图片文字识别 ocr

备注：截止到笔者写文时已发布4.00版本。

3.使用Tess4j，（不建议使用，我在试用过程中发现错误率极高）

不过目前网上能找到的比较多的资料都是Tess4j。

有以下可参考：

直接可运行的项目：https://gitee.com/zhaohuihbwj/Tess4JDemo

注意：该项目可直接运行测试。建议在maven中将tess4j升级到最新版本。

该项目直接包含了语言包，tess4j依赖包比较多，克隆过程会比较漫长。

若本地已有语言包chi_sim.traineddata，eng.traineddata，osd.traineddata

可克隆我fork的版本，https://gitee.com/huanghongbo/Tess4JDemo，将以上语言包放入/src/resources/tessdata目录。

其他参考资料：

1.官方参考：http://tess4j.sourceforge.net/

最新官方Tess4j包中已包含了对应dll文件，无需再单独配置。

2.Java OCR tess4j 图片识别技术（三）

3.验证码识别（Tess4J初体验）

4.tess4j正确的使用 OCR

JAVA OCR图片识别的更多相关文章

WindowsAPI调用和OCR图片识别
傻了吧唧的装双系统.成功的干崩了原本的系统.现在重装VS.闲的没事胡扯几句. WindowsAPI在每一台Windows系统上开放标准API供开发人员调用.功能齐全.在这里只介绍三个部分. 1.利用A ...
python实现百度OCR图片识别
一.直接上代码 import base64 import requests class CodeDemo: def __init__(self,AK,SK,code_url,img_path): se ...
Android开发学习之路-GSON使用心得（OCR图片识别）
在安卓中解析JSON串可以使用的方法有很多,比如说用官方提供的JSONObject或者谷歌提供的开源库GSON,以及一些第三方开源库. 这里用的是GSON,为了测试方便,借助了一个百度的api,一个图 ...
利用百度AI OCR图片识别，Java实现PDF中的图片转换成文字
序言:我们在读一些PDF版书籍的时候,如果PDF中不是图片,做起读书笔记的还好:如果PDF中的是图片的话,根本无法编辑,做起笔记来,还是很痛苦的.我是遇到过了.我们搞技术的,当然得自己学着解决现在的痛 ...
OCR图片识别引擎
OCR引擎 OCR(Optical Character Recognition)是指使用扫描仪或数码相机对文本资料进行扫描成图像文件,然后对图像文件进行分析处理,自动识别获取文字信息及版面信息的软件. ...
java实现的身份证照片脸部识别(头像截图) 以及OCR字体识别
断断续续地折腾了大半个月,终于把身份证照片脸部识别以及OCR字体识别功能用Java实现了,需求很简单:通过摄像头所照的一张放在黑色底板上的身份证照,识别照片上身份证里面的人名和地址(OCR中文),再截 ...
使用阿里云的图片识别成表格ocr（将图片表格转换成excel）
为了简便财务总是要对照着别人发来的表格图片制作成自己的表格图片识别识别成表格表格识别 ocr 使用阿里云api 购买(印刷文字识别-表格识别) https://market.aliyun.com ...
腾讯云OCR图片文字识别
一. OCR OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别 ...
Atitit java 二维码识别图片识别
Atitit java 二维码识别图片识别 1.1. 解码11.2. 首先,我们先说一下二维码一共有40个尺寸.官方叫版本Version.11.3. 二维码的样例:21.4. 定位图案21.5. 数 ...

随机推荐

Linux命令2——b
badblocks:检查磁盘设备中损坏的区块 -b:指定磁盘的区块大小,单位:字节 -c:一次检查几个区块 -i:由文件总读取已知的损坏区块,检查时会忽略这些区块 -o:检查的结果写入指定的输出文件. ...
Hyper-v虚拟机
Hyper-V1:创建和管理虚拟机 Hyper-V2:向VM增加虚拟硬盘 Hyper-V3:虚拟机的配置使用Hyper-V创建虚拟机 Hyper-v 安装CentOS 7 (其他虚拟机一样参考)
2. mysql 语句
基础语句创建表 DROP TABLE IF EXISTS student;CREATE TABLE student ( id ) NOT NULL AUTO_INCREMENT, sname ) N ...
【Django】【二】模板
1. Django-bootstrap3 guest>python -m pip install django-bootstrap3 [代码] settings.py ""& ...
将.db文件导入SQLServer2008数据库
最近要做一个项目,需要连接数据库,给我的数据文件是sqlite,我需要将数据导入到SQLServer数据库需要借助一个软件:DBDBMigration 页面最上方的选择框内,先选择数据文件类型,这里 ...
Spring Boot的数据访问之Spring Boot + jpa的demo
1. 快速地创建一个项目,pom中选择如下 <?xml version="1.0" encoding="UTF-8"?> <project x ...
使用python读取yaml文件
在做APP测试时,通常需要把参数存到一个字典变量中,这时可以将参数写入yaml文件中,再读取出来. 新建yaml文件(android_caps.yaml),文件内容为: platformName: A ...
A NEW HYPERSPECTRAL BAND SELECTION APPROACH BASED ON CONVOLUTIONAL NEURAL NETWORK文章笔记
A NEW HYPERSPECTRAL BAND SELECTION APPROACH BASED ON CONVOLUTIONAL NEURAL NETWORK 文章地址:https://ieeex ...
vue-cli3+cordova实现app混合开发
一.安装vue-cli3 安装并建新项目二.进入项目安装cordova npm install -g cordova 下载完之后,输入 cordova -v 查看是否成功安装,出现相应的版本号则成功 ...
Semana i 2018
Semana i 2018 A Giga-Kilo-Gigabyte 思路: dp水题代码: #pragma GCC optimize(2) #pragma GCC optimize(3) #pra ...

JAVA OCR图片识别

JAVA OCR图片识别的更多相关文章

随机推荐

热门专题