Tesseract-OCR的使用记录

参考：

http://www.cnblogs.com/cnlian/p/5765871.html

http://www.cnblogs.com/wzben/p/5930538.html

1、下载 Tesseract-OCR 及对应版本的 chi_sim.traindata 字库。

　　一定要对应否则会报错。错误信息为：actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in file tessdatamanager.cpp, line 53"

2、打开cmd，打开图片所在文件夹，输入命令：tesseract in.png out -l chi_sim ，在图片所在文件夹下生成名字为out的txt文件。

　　命令格式： tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]　　

　　imagename为目标图片文件名，需加格式后缀；outputbase是转换结果文件名；lang是语言名称（在Tesseract-OCR中tessdata文件夹可看到以eng开头的语言文件eng.traineddata），如不标-l eng则默认为eng。

字库训练

之前是打算字库训练，后来发现下载的字库还是比较完善的，就简单记录下。

下面是训练所有的cmd命令。chi.newchi.exp0.tif为自己转换的图片名字

tesseract chi.newchi.exp0.tif chi.newchi.exp0 -l chi_sim batch.nochop makebox

tesseract chi.newchi.exp0.png chi.newchi.exp0 nobatch box.train

unicharset_extractor chi.newchi.exp0.box

shapeclustering -F font_properties -U unicharset -O chi.unicharset chi.newchi.exp0.tr

mftraining -F font_properties -U unicharset -O chi.unicharset chi.newchi.exp0.tr

cntraining chi.newchi.exp0.tr

rename normproto newchi.normproto
rename inttemp newchi.inttemp
rename pffmtable newchi.pffmtable
rename unicharset newchi.unicharset
rename shapetable newchi.shapetable

combine_tessdata newchi.

tesseract chi.newchi.exp0.png chi.newchi.exp0 -l newchi

Tesseract-OCR的使用记录的更多相关文章

Tesseract——OCR图像识别入门篇
Tesseract——OCR图像识别入门篇最近给了我一个任务,让我研究图像识别,从我们项目的screenshot中识别文字信息,so我开始了学习,与大家分享下. 我看到目前OCR技术有很多,最主要 ...
tesseract ocr文字识别Android实例程序和训练工具全部源代码
tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用.可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率. 为了节省大家的学习时间,现将自己近期的学 ...
Tesseract Ocr引擎
Tesseract Ocr引擎 1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/t ...
开源图片文字识别引擎——Tesseract OCR
Tessseract为一款开源.免费的OCR引擎,能够支持中文十分难得.虽然其识别效果不是很理想,但是对于要求不高的中小型项目来说,已经足够用了. 文字识别可应用于许多领域,如阅读.翻译.文献资料的检 ...
Python下Tesseract Ocr引擎及安装介绍
1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码 ...
Tesseract OCR使用介绍
#Tesseract OCR使用介绍 ##目录[TOC] ##下载地址及介绍官网介绍:http://code.google.com/p/tesseract-ocr/wiki/TrainingTess ...
Tesseract ocr 3.02学习记录一
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业,一般多是印刷.打印行 ...
selenium使用笔记（二）——Tesseract OCR
在自动化测试过程中我们经常会遇到需要输入验证码的情况,而现在一般以图片验证码居多.通常我们处理这种情况应该用最简单的方式,让开发给个万能验证码或者直接将验证码这个环节跳过.之前在技术交流群里也跟朋友讨 ...
alfresco install in linux, and integrated with tesseract ocr
本文描述在Linux系统上安装Alfresco的步骤: 1. 下载安装文件:alfresco-community-5.0.d-installer-linux-x64.bin 2. 增加执行权限并执行: ...
使用Tesseract OCR识别验证码
1.下载Tessrac OCR,默认安装 2.把验证码code.jpg图片放在D盘 3.打开cmd,进入D盘,输入:tesseract code.jpg result 4.进入D盘,生成了resul ...

随机推荐

QT * 使用VS2013+QT5.7.0实现简单计算器
第一次用QT,配置环境变量和VS中添加QT路径自己找找源代码连接:https://blog.csdn.net/bjailihong/article/details/77508615 做一个简单的计算 ...
sql sever 2012重装数据库时，出现cannot find one or more components, Please reinstall the application.解决方法
错误原因: 由于我将SQL数据库做了删除,重装.在删除的过程中,不小心删除了某个SQL的插件,导致了这种问题的出现. 当我们去操作工具时,也会提示以上错误. 解决办法: 1)去控制面板--所有控制面板 ...
C# 切分图片
public void Slice() { // 图片路径 var file = "F;/aaa.png"; // 水平切分 ; // 纵向切分 ; ; i < horizo ...
Spark开发环境搭建（IDEA、Scala、SVN、SBT）
软件版本软件信息软件名称版本下载地址备注 Java 1.8 https://www.oracle.com/technetwork/java/javase/downloads/jdk8-dow ...
python练习题3：N的多次方
N的多次方描述编写一个程序,计算输入数字N的0次方到5次方结果,并依次输出这6个结果,输出结果间用空格分隔.其中:N是一个整数或浮点数. print()函数可以同时输出多个信息,采用如下方法可以使 ...
c语言题库---- 函数
---恢复内容开始--- 1.编写一个函数,功能为返回两个int类型参数的最大的值 #include <stdio.h>int FindMax( int a, int b); int ma ...
VS资源收藏<持续更新中>
1.VS插件下载地址:https://marketplace.visualstudio.com/vs
CRM-stark组件
stark组件 1. stark也是一个app(用startapp stark创建),目标时把这个做成一个可以拔插的组件 2. setting文件下INSTALLED_APPS 路径要配置好(app的 ...
AsyncTask 的 get post 封装
1.get方法的封装AsyncTask public class DBUTil2 { public static interface Succee{ void onSuccee(String resu ...
[蓝桥杯]PREV-27.历届试题_蚂蚁感冒
问题描述长100厘米的细长直杆子上有n只蚂蚁.它们的头有的朝左,有的朝右. 每只蚂蚁都只能沿着杆子向前爬,速度是1厘米/秒. 当两只蚂蚁碰面时,它们会同时掉头往相反的方向爬行. 这些蚂蚁中,有1只蚂 ...

Tesseract-OCR的使用记录

Tesseract-OCR的使用记录的更多相关文章

随机推荐

热门专题