Tesseract-ocr 工具使用记录

1、很多地方可以下载Tesseract-ocr工具，同时下载jTessBoxEditor方便之后的训练使用

2、下载Tesseract-ocr后可以放在任何地方，但是需要设置环境变量，或者在CMD当中调用的时候指定路径

在CMD当中的使用方法 Tesseract + 需要识别图片路径名称 + 返回结果路径名称 + ‘-l’ + 语言名称

例如 tesseract c:\a.png c:\result -l eng 识别c:\a.png图片结构返回c:\result（此处返回的文件是txt文件，但是此处不用加txt扩展名） -l eng(使用eng的字库识别，也可以使用别的字库)

3、使用jTessBoxEditor进行训练自己的字库，推荐http://www.tuicool.com/articles/zY7jQbM这篇文章，只是文章中的命令行可以利用工具上的菜单实现

4、利用jTessBoxEditor步骤简介

1、先将需要训练的图片保存在一个文件夹下

2、在jTessBoxEditor当中设置

设置tesseract程序的路径

设置需要被学习的图片路径（需要注意的，如果有多张图片，需要先使用Tools->merge TIFF 命令将多张图片合成为一张，选择的时候需要按住shift多选）

选择好路径后可以在此填写字库名都设置完后需要给图片生成box文件以用于下一步的修正选择此项目，然后点RUN，就会自动生成box文件了

接着就是修正初步识别的文字了，选择第二项 box editor，点open，后选择之前需要被学习的图片就能进行修正了，修正好了点击save保存，之后再来到

第一页的trainer 选择点run就会自动生成字库了，之后可以选择

validate进行测试了，生成的字库会在图片同级目录下

Tesseract-ocr 工具使用记录的更多相关文章

tesseract ocr文字识别Android实例程序和训练工具全部源代码
tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用.可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率. 为了节省大家的学习时间,现将自己近期的学 ...
Tesseract——OCR图像识别入门篇
Tesseract——OCR图像识别入门篇最近给了我一个任务,让我研究图像识别,从我们项目的screenshot中识别文字信息,so我开始了学习,与大家分享下. 我看到目前OCR技术有很多,最主要 ...
开源图片文字识别引擎——Tesseract OCR
Tessseract为一款开源.免费的OCR引擎,能够支持中文十分难得.虽然其识别效果不是很理想,但是对于要求不高的中小型项目来说,已经足够用了. 文字识别可应用于许多领域,如阅读.翻译.文献资料的检 ...
Tesseract OCR使用介绍
#Tesseract OCR使用介绍 ##目录[TOC] ##下载地址及介绍官网介绍:http://code.google.com/p/tesseract-ocr/wiki/TrainingTess ...
100行Python代码实现一款高精度免费OCR工具
近期Github开源了一款基于Python开发.名为 Textshot 的截图工具,刚开源不到半个月已经500+Star. 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语 ...
Tesseract Ocr引擎
Tesseract Ocr引擎 1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/t ...
Python下Tesseract Ocr引擎及安装介绍
1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码 ...
Tesseract ocr 3.02学习记录一
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业,一般多是印刷.打印行 ...
selenium使用笔记（二）——Tesseract OCR
在自动化测试过程中我们经常会遇到需要输入验证码的情况,而现在一般以图片验证码居多.通常我们处理这种情况应该用最简单的方式,让开发给个万能验证码或者直接将验证码这个环节跳过.之前在技术交流群里也跟朋友讨 ...
alfresco install in linux, and integrated with tesseract ocr
本文描述在Linux系统上安装Alfresco的步骤: 1. 下载安装文件:alfresco-community-5.0.d-installer-linux-x64.bin 2. 增加执行权限并执行: ...

随机推荐

分页之 skip（pageindex*(index-1).take(size).Tolist();
grdView.DataSource = Select().Skip(pageSize * (start - 1)).Take(rows).ToList();这个分页性能上并不高下面是我的分页 1 2 ...
Learn Node.js
Learn Node.js Node: 脱离浏览器运行的JS,运行在服务端基于Chrome浏览器的V8引擎,使用V8虚拟机解析和执行JS代码创建简单的服务器: 创建一个server.js的文件 $ ...
java 注意事项---避免踩坑
1.......对象参数接收不能大写
L1-Day15
1. 我记得昨天锁门了呀.(什么关系?“记得”后面,如果接动词,那动词该是什么形式?) [我的翻译]I remembered locking the door yestarday. [标准答 ...
从tom大叔那想着拿书的，呵呵。
//var tgtttime = new Date("2014/05/26 09:59:30"); var tgtttime = new Date("2014/05/26 ...
JavaWeb之html
html :Hyper Text Markup Language 超文本标记语言超文本:比文本功能更加强大标记语言:通过一组标签对内容进行描述的一门语言 html书写规则: 文件的后缀名:.htm ...
jQuery新版本没有了Toggle事件，两个按钮分别控制隐藏显示，同时这两个按钮点击也要互斥。
十二月没来得及整理发布,一直在草稿箱.现在已经2019年1月了... 需求大概是这样的 //XX点击事件 var flagBar = 0; $("#doNotBaseRate"). ...
基于Python的Webservice开发(二)-如何用Spyne开发Webservice
一.功能需求本次案例是开发一个Item的新建的WebService.IN&OUT的类型JsonDocument. 通过传入相关的参数创建Item,且相关的参数可以被缺省. 二.实现代码引入 ...
linux编译相关命令
一.编译可执行文件 g++ –c Hello.cpp 编译文件,生成目标文件Hello.o g++ Hello.o –o a.out 链接并重命名为可执行文件a.out g++ Hello.cc ...
SQL Server 数据库限制单用户使用和解除单用户使用
一个在单用户(SINGLE_USER)模式下的数据库一次只能有一个连接.在限制用户(RESTRICTED_USER)模式下的数据库只能接受被认为是“合格”用户的连接——这些用户属于dbcreator或 ...

Tesseract-ocr 工具使用记录

Tesseract-ocr 工具使用记录的更多相关文章

随机推荐

热门专题