tesseract-ocr训练方法

tesseract-ocr有2和3两个版本，不同版本训练方法稍有不同。

第3版本的训练方法官版教程在这里：TrainingTesseract3

第2版的训练方法官版教程在这里：TrainingTesseract

我使用的是最新的3.01版本的。训练所需准备：

1.下载并安装3.01版本的tesseract。事实上并不需要安装这步骤，我下载的是压缩包版，解压即可，这里我解压到E:\Tesseract-ocr目录。

2.下载并安装jTessBoxEditor 工具，这是一个Box file editors，用来编辑训练文件的，直接下载地址在这里。这个软件是用java写的，运行需要安装jre，好在这个东西比.net好装多了，怎么运行可以见它的readme文件。

3.一张用来训练的tiff格式图片。

在不通过训练的前提下，使用tesseract来识别一个订单号的内容，如图发现错误率很高，希望通过训练来提高准确率。

训练过程：

1.通过合并10张如上图的图片合并为一张tiff格式的图片，如何合并呢？通过jTessBoxEditor的Merge Tiff 来完成，不过他的小缺点就是只能合并多张tiff格式的，如果你的图片是jpg的，需要先转换。生成后的tiff图片叫做orderNo.tif

2.Make Box Files。在orderNo.tif所在的目录下打开一个命令行，输入：

E:\Tesseract-ocr\tesseract.exe orderNo.tif orderNo batch.nochop makebox

来生成一个box文件，该文件记录了tesseract识别出来的每一个字和其位置坐标。

3.使用jTessBoxEditor打开orderNo.tif文件，需要记住的是第2步生成的orderNo.box要和这个orderNo.tif文件同在一个目录下。逐个校正文字，后保存。

4.Run Tesseract for Training。输入命令：

E:\Tesseract-ocr\tesseract.exe orderNo.tif orderNo nobatch box.train

5.Compute the Character Set。输入命令：

E:\Tesseract-ocr\unicharset_extractor.exe orderNo.box

6.新建文件“font_properties”。如果是3.01版本，那么需要在目录下新建一个名字为“font_properties”的文件，并且输入文本 :

orderNo 0 0 0 0 0

大致意思就是说orderNo这个语言的字体为普通字体。

并执行命令：

E:\Tesseract-ocr\mftraining.exe -F font_properties -U unicharset orderNo.tr

7.Clustering。输入命令：

E:\Tesseract-ocr\cntraining.exe orderNo.tr

8.此时，在目录下应该生成若干个文件了，把unicharset, inttemp, normproto, pffmtable这四个文件加上前缀“orderNo.”。然后输入命令：

E:\Tesseract-ocr\combine_tessdata.exe orderNo.

会显示一个结果如：

Combining tessdata files
TessdataManager combined tesseract data files.
Offset for type 0 is -1
Offset for type 1 is 108
Offset for type 2 is -1
Offset for type 3 is 1660
Offset for type 4 is 327545
Offset for type 5 is 327781
Offset for type 6 is -1
Offset for type 7 is -1
Offset for type 8 is -1
Offset for type 9 is -1
Offset for type 10 is -1
Offset for type 11 is -1
Offset for type 12 is –1

必须确定的是第2、4、5、6行的数据不是-1，那么一个新的字典就算生成了。

此时目录下“orderNo.traineddata”的文件拷贝到tesseract程序目录下的“tessdata”目录。

以后就可以使用该该字典来识别了，例如：

tesseract.exe test.jpg result –l orderNo

通过训练出来的新语言，识别率提高了不少。

Posted by lixin at 下午 6:46 Tagged with: ocr

28 Responses to “tesseract-ocr训练方法”

luacloud says:

2012 年 5 月 28 日 at 下午 2:19

有学习能力的？

回复
by says:

2012 年 8 月 16 日 at 下午 9:32

您好，我的步骤跟你的一样，可到mftraining这一步怎么都过不去，老是windows弹出提示，mftraining.exe已停止工作。该怎么解决呢。

E:\Tesseract-ocr3.01\build>..\mftraining -F font_properties -U unicharset cnlp.l
pft.exp0.tr

tesseract-ocr训练方法的更多相关文章

tesseract ocr文字识别Android实例程序和训练工具全部源代码
tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用.可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率. 为了节省大家的学习时间,现将自己近期的学 ...
Tesseract——OCR图像识别入门篇
Tesseract——OCR图像识别入门篇最近给了我一个任务,让我研究图像识别,从我们项目的screenshot中识别文字信息,so我开始了学习,与大家分享下. 我看到目前OCR技术有很多,最主要 ...
Tesseract Ocr引擎
Tesseract Ocr引擎 1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/t ...
开源图片文字识别引擎——Tesseract OCR
Tessseract为一款开源.免费的OCR引擎,能够支持中文十分难得.虽然其识别效果不是很理想,但是对于要求不高的中小型项目来说,已经足够用了. 文字识别可应用于许多领域,如阅读.翻译.文献资料的检 ...
Python下Tesseract Ocr引擎及安装介绍
1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码 ...
Tesseract OCR使用介绍
#Tesseract OCR使用介绍 ##目录[TOC] ##下载地址及介绍官网介绍:http://code.google.com/p/tesseract-ocr/wiki/TrainingTess ...
selenium使用笔记（二）——Tesseract OCR
在自动化测试过程中我们经常会遇到需要输入验证码的情况,而现在一般以图片验证码居多.通常我们处理这种情况应该用最简单的方式,让开发给个万能验证码或者直接将验证码这个环节跳过.之前在技术交流群里也跟朋友讨 ...
alfresco install in linux, and integrated with tesseract ocr
本文描述在Linux系统上安装Alfresco的步骤: 1. 下载安装文件:alfresco-community-5.0.d-installer-linux-x64.bin 2. 增加执行权限并执行: ...
使用Tesseract OCR识别验证码
1.下载Tessrac OCR,默认安装 2.把验证码code.jpg图片放在D盘 3.打开cmd,进入D盘,输入:tesseract code.jpg result 4.进入D盘,生成了resul ...
Tesseract ocr 3.02学习记录一
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业,一般多是印刷.打印行 ...

随机推荐

<p>1、查询端口号占用，根据端口查看进程信息</p>
2017年6月份的时候,我就着手在公司推广git,首先我自己尝试搭建了GitLab来管理代码,并且通过以下博客记录了GitLab的搭建,以及GitLab备份,GitLab升级等事情. git学习——& ...
voj 1754 spfa
最优贸易最优贸易描述 C 国有 n 个大城市和 m 条道路,每条道路连接这 n 个城市中的某两个城市.任意两个城市之间最多只有一条道路直接相连.这 m 条道路中有一部分为单向通行的道路,一部分 ...
@pathVariable的作用
//url中的id 可通过@pathVariable绑定到函数的参数中
C#读写配置文件Config
应用程序配置文件是标准的XML文件,XML标记和属性是区分大小写的.它是可以按需要更改的,开发人员可以使用配置文件来更改设置,而不必重编译应用程序.配置文件的根节点是configuration.我们经 ...
poj3422
题解: 先奖每一个点裂开来然后在见图代码: #include<cstdio> #include<cmath> #include<cstring> #includ ...
zTree简单使用
zTree使用 zTree github地址 zTree API文档 zTree插件依赖JQ所以使用zTree首先引入JQ,另外zTree的点击功能,编辑功能都是单独的文件,如需使用也要引入(也可以引 ...
201621123005《Java程序设计》第六次学习总结
201621123005<java程序设计>第六周学习总结 1.本周学习总结 1.1 面向对象学习暂告一段落,请使用思维导图,以封装.继承.多态为核心概念画一张思维导图或相关笔记,对面向对 ...
第12课：HTML基础之DOM操作1
DOM(Document Object Model):文本对象模型 dom对象实际上是html页面转成成的文本对象,可以通过dom对象中js提供的方法找到htm中的各个标签. 练习URL:http:/ ...
同时发出 ajax 拿到正确的返回值问题
方案大概意思就是前端在data里面传一个标示给后台, 后台再ajax返回的时候携带这个标示
MDI窗体及涉及到的相关问题
MDI窗体是个什么东东尼?多文档窗体唠,相对的还有个SDI,就是单文档窗体.一般情况下我们会将软件的主窗体设置为MDI窗体.那么在主窗体的菜单部分调出来的其他窗体就是主窗体的子窗体了. (1)在主窗体 ...

tesseract-ocr训练方法

28 Responses to “tesseract-ocr训练方法”

tesseract-ocr训练方法的更多相关文章

随机推荐

热门专题