做字符识别，不能不了解google的Tesseract-OCR，但是如何在自己的工程中使用其API倒是语焉不详，官网上倒是很详尽地也很啰嗦地介绍如何重新编译生成适合自己平台的lib和dll，经过近些天的不断搜索和尝试，可算是找了些门路。尤其感谢以下作者的分享带给我的帮助和启发：

下面开始介绍我的使用经验：

一，下载lib和dll

可以从这里http://code.google.com/p/tesseract-ocr/downloads/list 下载

tesseract-ocr-setup-3.02.02.exe

Windows installer of tesseract-ocr 3.02.02 (including English language data) Featured

然后进行安装，如此可以方便地省去好多配置细节：如修改环境变量【如果不采用环境变量方式，则需要对于每个工程目录建立tessdata文件夹，并且里面放置所需要的chi_sim.traineddata等语言包】，也不再需要下载tesseract-3.02.02-win32-lib-include-dirs.zip，更方便以后训练出自己的traineddata 文件

需要注意的是，安装目录下lib里面 libtesseract302d.dll 是针对VS2008的，需要用一个vs2010编译出的替换下来才可以在VS2010下正常使用。

另外还需要将 liblept168.dll 和 liblept168d.dll两个文件一并下载放到lib里面。【这三个文件均可以从tsinson提供的样例工程里面找到】

二，修改环境变量Path

在环境变量Path中增加指向安装目录下lib的路径，比如C:\Program Files\Tesseract-OCR\lib ，以便exe运行时能找到所需要的dll

三，工程中属性中增加路径

在自己的工程属性中VC++目录下增加包含目录和库目录，以便VS2010查找文件。例如

包含目录下新增：C:\Program Files\Tesseract-OCR\include\tesseract

库目录下新增： C:\Program Files\Tesseract-OCR\lib

四，增加语言训练包

直接将语言训练包放置在安装目录tessdata文件夹下就好，比如将tesseract-ocr-3.02.chi_sim.tar.gz中的chi_sim.traineddata 文件直接抽取出来放在 C:\Program Files\Tesseract-OCR\tessdata 下面，就可以支持中文简体字符的识别啦。当然，自己训练出来的traineddata 文件也是要放在这里的才生效。

五，API简单使用方法

这里可以参照<span>cxf7394373</span>的字符识别Google开源Tesseract-ocr的DLL调用方法

使用其API的一种模式大致是这样：先包含头文件，连接库；然后再定义一个api类，配置好参数之后提取识别结果

#include "strngs.h"
#include "baseapi.h"
#pragma comment(lib,"libtesseract302d.lib")
////////////////
tesseract::TessBaseAPI api;
api.Init(NULL, "eng", tesseract::OEM_DEFAULT); //初始化，设置语言包，中文简体：chi_sim;英文：eng；也可以自己训练语言包
//api.SetVariable( "tessedit_char_whitelist", "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz" );
STRING text_out;
if (!api.ProcessPages("kaze.tif", NULL, 0, &text_out))
{
//AfxMessageBox("tesseract 处理出现异常");
return 0;
}
cout<<text_out.string();
cout<<UTF8ToGBK(text_out.string()).c_str();

#include "strngs.h"
#include "baseapi.h"
#pragma comment(lib,"libtesseract302d.lib")
////////////////
tesseract::TessBaseAPI api;
api.Init(NULL, "eng", tesseract::OEM_DEFAULT); //初始化，设置语言包，中文简体：chi_sim;英文：eng；也可以自己训练语言包
//api.SetVariable( "tessedit_char_whitelist", "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz" );
STRING text_out;
if (!api.ProcessPages("kaze.tif", NULL, 0, &text_out))
{
//AfxMessageBox("tesseract 处理出现异常");
return 0;
}
cout<<text_out.string();
cout<<UTF8ToGBK(text_out.string()).c_str();

Tesseract OCR简单实用介绍的更多相关文章

MonkeyTest简单实用介绍
什么是Monkeytest? monkey测试是Android平台自动化测试的一种手段,通过Monkey程序模拟用户触摸屏幕.滑动Trackball.按键灯操作来对设备上的程序进行压力测试,检测程序发 ...
iOS边练边学--多线程介绍、NSThread的简单实用、线程安全以及线程之间的通信
一.iOS中的多线程多线程的原理(之前多线程这块没好好学,之前对多线程的理解也是错误的,这里更正,好好学习这块) iOS中多线程的实现方案有以下几种二.NSThread线程类的简单实用(直接上代码 ...
Python下Tesseract Ocr引擎及安装介绍
1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码 ...
百度 OCR API 的使用以及与 Tesseract 的简单对比
目录百度 OCR API 初探用 Python 调用百度 OCR API 与 Tesseract 的简单对比百度 OCR API 初探近日得知百度在其 APIStore 上开放了 OCR 的 ...
Tesseract OCR使用介绍
#Tesseract OCR使用介绍 ##目录[TOC] ##下载地址及介绍官网介绍:http://code.google.com/p/tesseract-ocr/wiki/TrainingTess ...
Tesseract——OCR图像识别入门篇
Tesseract——OCR图像识别入门篇最近给了我一个任务,让我研究图像识别,从我们项目的screenshot中识别文字信息,so我开始了学习,与大家分享下. 我看到目前OCR技术有很多,最主要 ...
使用ImageMagick和Tesseract进行简单数字图像识别
使用ImageMagick和Tesseract进行简单数字图像识别由于直接使用 tesseract 进行识别,识别率很低, ImageMagick 安装.配置及使用: 平台:winXP 1. 安装I ...
简单实用的PHP防注入类实例
这篇文章主要介绍了简单实用的PHP防注入类实例,以两个简单的防注入类为例介绍了PHP防注入的原理与技巧,对网站安全建设来说非常具有实用价值,需要的朋友可以参考下本文实例讲述了简单实用的PHP防注 ...
tesseract ocr文字识别Android实例程序和训练工具全部源代码
tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用.可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率. 为了节省大家的学习时间,现将自己近期的学 ...

随机推荐

一些CSS3的乐趣 - 工作也能发现乐的源头
中秋节 translate 前些日子做一个中秋节的专题,主要就是写一个效果,月亮滚动,花瓣飘落.具体代码如下: .icons {z-index:10088; position:absolute; -w ...
AngularJs -- 指令中使用子作用域
下面将要介绍的指令会以父级作用域为原型生成子作用域.这种继承的机制可以创建一个隔离层,用来将需要协同工作的方法和数据模型对象放置在一起. ng-app和ng-controller是特殊的指令,因为它们 ...
20155203 2016-2017-2 《Java程序设计》第7周学习总结
20155203 2016-2017-2 <Java程序设计>第6周学习总结教材学习内容总结 1.Lambda表达式.(使用interface函数接口) 2.Lambda的方法参考Met ...
CSUST 1506 ZZ的计算器模拟题
题目描述:实现一个计算器,可以进行任意步的整数以内的加减乘除运算,运算符号只有+.-.*./,求出结果. 解题报告:一个可以说麻烦的模拟题,我们可以这样,输入以字符串的形式输入,然后将输入先做一遍预处 ...
CTSC2018&APIO2018游记
CTSC2018&APIO2018游记 Day 0 傍晚出发,从长沙通往帝都的软卧哟. 然而长沙某中学坐高铁比我们晚出发还早到 Day 1 为了正经地写游记我决定忍住不在博客里吐槽酒店. 午饭 ...
HDU 2049 不容易系列之(4)——考新郎（错排+组合）
题目链接. Problem Description 国庆期间,省城HZ刚刚举行了一场盛大的集体婚礼,为了使婚礼进行的丰富一些,司仪临时想出了有一个有意思的节目,叫做"考新郎",具体 ...
python 入门基础4 --数据类型及内置方法
今日目录: 零.解压赋值+for循环一. 可变/不可变和有序/无序二.基本数据类型及内置方法 1.整型 int 2.浮点型float 3.字符串类型 4.列表类型三.后期补充内容零.解压赋值+ ...
python格式化输出【转】
今天写代码时,需要统一化输出格式进行,一时想不起具体细节,用了最笨的方法,现在讲常见的方法进行一个总结. 一.格式化输出 1.整数的输出直接使用'%d'代替可输入十进制数字: >>> ...
【坐在马桶上看算法】算法6：只有五行的Floyd最短路算法
暑假,小哼准备去一些城市旅游.有些城市之间有公路,有些城市之间则没有,如下图.为了节省经费以及方便计划旅程,小哼希望在出发之前知道任意两个城市之前的最短路程. 上图中有 ...
Demo004 迷宫的生成与遍历的代码审查
1.传送门合作伙伴: 嚯唶 CnBlogs: 嚯唶 Coding:Rst321 代码: 迷宫的遍历与生成 2. 作业要求 (1). 首先在同学中找一个同伴,范围不限,可以在1~5班中随意组合,建议尽 ...

Tesseract OCR简单实用介绍