用jTessBoxEditorFX训练字库

软件下载：https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

官方字库下载：https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#format-of-traineddata-files

建议：普通版本和FX版本都下载，用普通版本调整坐标，用FX版本调整汉字识别。FX版本的坐标调整不能输入数字，一旦坐标偏移太大，简直就是反人类设计。

另外，也可以直接使用普通版本，虽然在Box Editor页面里看不到汉字，但是可以用Notepad++直接打开box文件进行文字编辑。

文中用的是FX2.0beta版，有些小问题，但是不影响使用，目前正式版应该是2.2。

1、点击tools后再点击Merge TIFF，将所需要的图片集转换成tif格式，源图片集格式支持jpg和tif两种。合成的图片集命名格式为[chi_sim].[test].[exp0].tif 第一个空是字典格式，第二个字体（自定义）名字，第三个空位exp[0]。

2、生成BOX文件，D:\jTessBoxEditorFX\tesseract-ocr\tesseract.exe chi_sim.test.exp0.tif chi_sim.test.exp0 -l chi_sim batch.nochop makebox

D:\temp\train2>D:\jTessBoxEditorFX\tesseract-ocr\tesseract.exe chi_sim.test.exp1.tif chi_sim.test.exp1 -l chi_sim batch.nochop makebox

Tesseract Open Source OCR Engine v4.00.00alpha with Leptonica

Page 1

Page 2

Page 3

Page 4

-l chi_sim参数是使用已经有的中文训练字库

这个字库是在tessdata目录里，可以自己拷贝进去

3、调整字体坐标，调整识别错误的汉字。使用open打开刚才生成的tif文件，根据刚才生成的box文件调整字库。这个步骤才是真正核心的步骤，也是最麻烦的地方。

调整坐标建议使用普通版本，FX版本无法手动调整坐标，不知道是不是故意设置还是BUG。

merge合并的时候有几个图片文件，这里就需要按page页分别调整。

4、调整完成box文件后，就需要生成tr文件
D:\jTessBoxEditorFX\tesseract-ocr\tesseract.exe chi_sim.test.exp0.tif chi_sim.test.exp0 nobatch box.train

5、生成unicharset文件
D:\jTessBoxEditorFX\tesseract-ocr\unicharset_extractor.exe chi_sim.test.exp0.box

6、新建font_properties文件用记事本新建一个明文font_properties.txt
内容格式为test 0 0 0 0 0，test是新建tif中间的内容（chi_sim.test.exp0.tif）。

7、在分别运行三个命令对tr特征集合进行操作

生成shape文件
D:\jTessBoxEditorFX\tesseract-ocr\shapeclustering.exe -F font_properties.txt -U unicharset chi_sim.test.exp0.tr

生成聚集字符特征文件
D:\jTessBoxEditorFX\tesseract-ocr\Mftraining.exe -F font_properties.txt -U unicharset -O unicharset chi_sim.test.exp0.tr

生成字符正常化特征文件
D:\jTessBoxEditorFX\tesseract-ocr\cntraining.exe chi_sim.test.exp0.tr

8、重命名把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上test.（就是你的tif中间的名字）

9、组合文件，成功后会生成test.traineddata训练库文件。

D:\jTessBoxEditorFX\tesseract-ocr\combine_tessdata test.（后面是有点的）

10、识别测试，把test.traineddata拷贝到D:\jTessBoxEditorFX\tesseract-ocr\tessdata目录下
D:\jTessBoxEditorFX\tesseract-ocr\tesseract chi_sim.test.exp0.tif output -l test

11、在代码中测试效果，可以全部识别出来，简单的代码之前发过（java 使用tess4j实现OCR的最简单样例）

12、如果需要识别的图形比较复杂，一般情况下不能对整张图片进行识别，需要把图片分块识别，用代码也好实现，关键是准备阶段划分图片区域比较费事。

 public static void main(String args[]) throws Exception {

        ITesseract instance = new Tesseract();

        instance.setDatapath("tessdata"); //相对目录，这个时候tessdata目录和src目录平级

        instance.setLanguage("test");//选择字库文件（只需要文件名，不需要后缀名）

        try {

            File imageFile = new File("d:\\temp\\1.jpg");

            BufferedImage bufferedImage = ImageIO.read(imageFile);

            Rectangle rect = new Rectangle(2581,510,249,196);//按区域读取

            String result2 = instance.doOCR(bufferedImage,rect);

            System.out.println(result2);

        } catch (Exception e) {

            System.out.println(e.toString());

        }

    }

用jTessBoxEditorFX训练字库的更多相关文章

使用jTessBoxEditorFX训练Tesseract-OCR教程
使用jTessBoxEditorFX训练Tesseract-OCR教程注:1,工具是JAVA编写的,所以在使用工具之间,需要安装JAVA环境. 2,安装Tesseract-OCR应用程序,并将目录添 ...
Tesseract-OCR识别中文与训练字库实例
关于中文的识别,效果比较好而且开源的应该就是Tesseract-OCR了,所以自己亲身试用一下,分享到博客让有同样兴趣的人少走弯路. 文中所用到的身份证图片资源是百度找的,如有侵权可联系我删除. 一. ...
Tesseract-OCR4.0识别中文与训练字库实例
关于中文的识别,效果比较好而且开源的应该就是Tesseract-OCR了,所以自己亲身试用一下,分享到博客让有同样兴趣的人少走弯路. 文中所用到的身份证图片资源是百度找的,如有侵权可联系我删除. 一. ...
深入学习Tesseract-ocr识别中文并训练字库的方法
上篇文章简单的学习了tesseract-ocr识别图片中的英文(链接地址如下:https://www.cnblogs.com/wj-1314/p/9428909.html),看起来效果还不错,所以这篇 ...
Tesseract5.0训练字库，提高OCR特殊场景识别率（一）
0.目标很多特殊场景,原生的字库识别率不高,这时候就需要根据需求自己训练字库生成traineddata文件. 一.前期准备工作 1.安装jdk 用于运行jTessBoxEditor 2.安装jT ...
Tesseract-OCR识别中文与训练字库
转自:https://www.cnblogs.com/lcawen/articles/7040005.html 关于中文的识别,效果比较好而且开源的应该就是Tesseract-OCR了,所以自己亲身试 ...
Tesseract_ocr 字符识别基础及训练字库、合并字库
字符训练网上一搜一大堆,但作为一个初学者而言,字符合并网上却写的很笼统首先,需要生成的字符集.tif文件,位置文件 .box ,只要有这两个文件在,就可以合并字典(这个说的很有道理的样子) 好了, ...
Tesseract5.0训练字库，提高OCR特殊场景识别率，合并字库（二）
一.准备工作需要的文件 tif文件和box文件. 如果你打标打好了,但是是分批次打标的,那么可以合并字库,我们最初只需要 tif 和 box 文件,如下: 二.生成对应的 .tr 训练文件根据不同 ...
tesseract-ocr字库训练图文讲解
第一步合成图片集你需要把使用jTessBoxEditor工具把你的训练素材及多张图片合并成一张tif格式的图片集第二步生成box文件运行tesseract命令,tesseract mjorc ...

随机推荐

为什么要使用token，token与session区别是什么
目录一.session的状态保持及弊端二.token认证机制一.session的状态保持及弊端当用户第一次通过浏览器使用用户名和密码访问服务器时,服务器会验证用户数据,验证成功后在服务器端写入 ...
NOIP 2004 合并果子
洛谷P1090 https://www.luogu.org/problemnew/show/P1090 JDOJ 1270 题目描述在一个果园里,多多已经将所有的果子打了下来,而且按果子的不同种类分 ...
LG5200 「USACO2019JAN」Sleepy Cow Sorting 树状数组
\(\mathrm{Sleepy Cow Sorting}\) 问题描述 LG5200 题解树状数组. 设\(c[i]\)代表\([1,i]\)中归位数. 显然最终的目的是将整个序列排序为一个上升序 ...
electron自定义桌面应用的外观
1. 控制应用视窗大小构建桌面应用时,我们要考虑我们的应用程序需要如何让用户来使用,那么我们需要提供一个视窗,那么该视窗可以最大化展示,也可以最小化展示,当然我们也希望可以全屏运行. 在electr ...
[LeetCode] 7. Reverse Integer 翻转整数
Given a 32-bit signed integer, reverse digits of an integer. Example 1: Input: 123 Output: 321 Examp ...
[转载]3.4 UiPath键盘操作的介绍和使用
一.键盘操作的介绍模拟用户使用键盘操作的一种行为: 例如使用发送热键(Sendhotkey),输入信息 (Typeinto)的操作二.键盘操作在UiPath中的使用 1.打开设计器,在设计库中新建 ...
[FY20 创新人才班 ASE] 第 1 次作业成绩
作业概况条目备注作业链接 [ASE高级软件工程]热身作业! 提交人数 19 未完成人数 2 满分 10分作业情况总结本次作业作为大家软工课程的第一次作业,完成度相当不错(尤其是在国外暑研/赶 ...
使用Linq判断DataTable数据是否重复
我们一般系统在导入数据的时候,一般都是通过NPOI将excel数据转换成DataTable,然后将DataTable导入到数据库.在数据导入的过程中,其实很重要的一部就是检查DataTable中的数据 ...
laravel框架中超实用的功能介绍
本篇文章给大家带来的内容是关于laravel框架中超实用的功能介绍,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 让lumen的dd() dump()像laravel一样优雅 1 c ...
Lsyncd实时同步搭建指南
linux文件实时同步: inotify+rsync.sersync.lsyncd工具比较一.inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案,原先使用的是inotify ...

用jTessBoxEditorFX训练字库

用jTessBoxEditorFX训练字库的更多相关文章

随机推荐

热门专题