tesseract-orc 合并识别结果

在实际使用 tesseract-orc 识别库的时候，初次制作的识别库很有可能识别率不太理想，需要后期慢慢补充

本文演示如何将多个修正过的box文件合并成一个识别库。

首先，需要图片样本.tif文件，位置文件.box ,只要有这两个文件在，就可以合并字典

假设已存在如下样品图片和修正过的box文件：

image.font.1.tif image.font.1.box

image.font.2.tif image.font.2.box

image.font.3.fit image.font.3.box

1、先生成相对应的 .tr 文件

tesseract image.font.1.tif image.font.1 nobatch box.train

tesseract image.font.2.tif image.font.2 nobatch box.train

tesseract image.font.3.tif image.font.3 nobatch box.train

2、提取字符

unicharset_extractor image.font.1.box image.font.2.box image.font.3.box

3、生成字体特征文件

新建 font_properties 文件（注意没有后缀名）把所有box文件对应的字体特征都加进去

font 0 0 0 0 0

4、执行如下命令

mftraining -F font -U unicharset image.font.1.tr image.font.2.tr image.font.3.tr

5、聚集所有.tr 文件

cntraining image.font.1.tr image.font.2.tr image.font.3.tr

6、重命名文件

将如下文件重命名，在前面增加字体的名称，这里我使用【CK】

unicharset

inttemp

normproto

pfftable

shapetable ---- 很多教程都漏了这个文件，不改这个文件创建识别库的时候会报错。

重命名后各文件名如下

CK.unicharset

CK.inttemp

CK.normproto

CK.pfftable

CK.shapetable ---- 很多教程都漏了这个文件，不改这个文件创建识别库的时候会报错。

7、合并所有文件生成一个大的字库文件

combine_tessdata CK.

打完收工

tesseract-orc 合并识别结果的更多相关文章

基于Tesseract的OCR识别小程序
一.背景先说下开发背景,今年有次搬家找房子(2020了应该叫去年了),发现每天都要对着各种租房广告打很多电话.(当然网上也找了实地也找),每次基本都是对着墙面看电话号码然后拨打,次数一多就感觉非常麻 ...
tesseract ocr文字识别Android实例程序和训练工具全部源代码
tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用.可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率. 为了节省大家的学习时间,现将自己近期的学 ...
tesseract ocr文字识别
一.环境搭建 (基于VS2010) 1.下载安装 tesseract-ocr-setup-3.02.02.exe 安装包 ,安装时候最好是在FQ的情况下安装.(安装一点要勾选 Tesseract de ...
Android ORC文字识别之识别身份证号等（附源码）
项目地址https://github.com/979451341/OrcTest 我们说说实现这个项目已实现的功能,能够截图手机界面的某一块,将这个某一块图片的Bitmap传给tess-two的代码来 ...
在Mac上 python中使用tesseract OCR (Pytesser) 识别图片中的文字
仓库地址:https://github.com/RobinDavid/Pytesser brew install tesseract sudo pip install opencv-python 安装 ...
关于用tesseract和tesserocr识别图片的一个问题
对于像我这样初学python网络爬虫的freshman来说,软件的准备和环境的配置能让我们崩溃.其中用刚安装好的tesseract和tesserocr库测试识别验证码就是其中一例. 这里我要测试的验证 ...
基于Tesseract的身份证识别Android端应用
以开源的Tesseract为基础,做了一个身份证识别的app. 图片资源是百度找的,而且手机对着电脑屏幕拍照,拍出很多花纹,影响比较大,所以误差不小,实测对着自己身份证拍照会好很多. 效果图: 1.拍 ...
python 使用tesseract进行图片识别
from PIL import Image import pytesseract text = pytesseract.image_to_string(Image.open(r'E:\guo\2432 ...
java使用开源类库Tesseract实现图片识别
Tesseract-OCR支持中文识别,并且开源和提供全套的训练工具,是快速低成本开发的首选. Tess4J则是Tesseract在Java PC上的应用 Tesseract的OCR引擎最先由HP实验 ...

随机推荐

【linux】windows和linux编码相互转换
windows-->linux:dos2unix file linux-->windows:unix2dos file
【linux】which和whereis
which和whereis都是查询命令的指令.区别的是: which能查询到命令所在位置: [root@andon tmp]# which ls alias ls='ls --color=auto' ...
从客户端中检测到有潜在危险的Request.Form值的解决方法
在提交表单时候,asp.net 提示:"从客户端(......)中检测到有潜在危险的 Request.Form 值" .asp.net中的请求验证特性提供了某一等级的保护措施防止X ...
grep，sed，cut，awk，join个性特点
grep 从数据文件中查询/提取出含有特定关键字的行. sed 主要用于对数据文件中特定字符串的替换处理. cut 按照指定的分隔符(-d)剪下选定的列(-f num)或者字符(-c)的内容. awk ...
Java的外部类和内部类+静态变量和非静态变量的组合关系
看的李刚<疯狂java讲义>,里面讲内部类的地方感觉有点散而且不全,看完之后还是不十分清楚到底怎么用,于是自己写了个程序测试了一下.看如下代码,即可知道外部类和内部类+静态成员和非静态成员 ...
Android Please ensure that adb is correctly located at问题解决
转载于:http://breezylee.iteye.com/blog/2032588 遇到问题描述: 运行android程序控制台输出 [2012-07-18 16:18:26 - ] The co ...
[运维-服务器 – 2A] – nginx下绑定域名
这个篇文章今天(2016-01-21)才有幸写了,因为自己对nginx部署以前没玩过,还得感谢下我们数字化的总经理.在这里记录下自己成长的经验,与遇到的问题. 因为自己的域名是在万网上买的,解析无法直 ...
AP_AP系列 - 费用报表分析（案例）
2014-07-08 Created By BaoXinjian
linux下的g++编译器安装
再debian下直接apt-get install gcc g++就可以了.按照类似的逻辑,再Fedora下yum install gcc g++ 报告无法找到g++包. 查了一下,原来这个包的名字叫 ...
BestCoder Round #87 LCIS(dp)
LCIS 要用dp的思路想这题 [题目链接]LCIS [题目类型]dp &题意: 给定两个序列,求它们的最长公共递增子序列的长度, 并且这个子序列的值是连续的,比如(x,x+1,...,y−1 ...

tesseract-orc 合并识别结果

tesseract-orc 合并识别结果的更多相关文章

随机推荐

热门专题