Tika结合Tesseract-OCR 实现光学汉字识别（简体、宋体的识别率百分之百）

OCR(Optical character recognition) —— 光学字符识别，是图像处理的一个重要分支，中文的识别具有一定挑战性，特别是手写体和草书的识别，是重要和热门的科学研究方向。可惜国内的科研院所，基本没有几个高识别率的训练集——笔者联系过北京语言大学研究生一篇论文的作者，他们论文说有%90的正确识别率，结果只做了20个笔画简单的汉字（20/6753 = %0.3 常用简体汉字的千分之三），然后找了20个学生，各自手写了一遍。真的是为了论文而论文，而且很会选择样本（小而简单）

斯坦福大学有个工程项目，专门做中文汉字的识别——欧美发达国家的科研院所更有研究精神

提高识别率，训练集是关键！

提高识别率，训练集是关键！！

提高识别率，训练集是关键！！！

下载训练集—traineddata请移步：

https://github.com/tesseract-ocr/tessdata

中文请选如下4个：

chi_sim.traineddata （简体— 对于宋体，像素>= 300dpi:识别率高达%100，同时对英文及阿拉伯数字识别率高达百分之90以上）
chi_sim_vert.traineddata （简体，竖排）
chi_tra.traineddata （繁体）
chi_tra_vert.traineddata（繁体，竖排）【CoderBaby】

如何做自己的测试数据集

请参考官网: how to train tesseract

经过测试得出如下结论：

对于宋体，白色背景，非倾斜等，像素大于等于300dpi—识别率%100
英文和数字，识别率超过90%
特殊字符识别率不高
像素太低，识别率急剧下降
多种背景颜色变化，识别率极低
字体换成草书等，识别率大幅降低
电影屏幕字幕和网页截图识别率较低
扫描件如果字体太淡，太小，完全识别不出来
提高识别率，需要自己做训练集，工作量巨大的体力活（简体汉字最少6753个，混合一些复杂的，至少要10000个字符；不同字体要重新做，因为本质上是图形几何计算，国内科研院所和开源的做的不多）

Java源码实现，tika结合Tesseract-OCR

（1）源码如下(支持多个图片识别）

    @Test

    public void testCode() throws IOException, SAXException, TikaException, InterruptedException {

        List<String> fileNames = new ArrayList<>();

        fileNames.add("chi_eng.png");

        fileNames.add("chi_eng01.png");

        fileNames.add("chi_old.png");

        fileNames.add("chi-scan-75dpi.jpg");

        fileNames.add("chi-scan-100dpi.jpg");

        fileNames.add("chi-scan-300dpi.jpg");

        fileNames.add("chi-smartphone.jpg");

        fileNames.add("chi-subtitle-v1.jpg");

        fileNames.add("english00.png");

        fileNames.add("pdf_shaomiao.png");

        fileNames.add("test.tiff");

        fileNames.add("weather.png");

        // 转载请注明出处：https://www.cnblogs.com/NaughtyCat/p/tika-support-Tesseract-OCR-with-source-code-and-test-data.html

        TesseractOCRParser parser = new TesseractOCRParser();

        TesseractOCRConfig config = new TesseractOCRConfig();

        // 设置简体中文训练集

        config.setLanguage("chi_sim");

        // 设置Tesseract 安装路径

        config.setTesseractPath("C:/Program Files/Tesseract-OCR");

        // 设置train data 路径

        config.setTessdataPath("C:/Program Files/Tesseract-OCR/tessdata");

        ParseContext context = new ParseContext();

        context.set(TesseractOCRConfig.class, config);

        context.set(TesseractOCRParser.class, parser);

        fileNames.forEach(filename -> {

            BodyContentHandler handler = new BodyContentHandler();

            File file = new File("E:/tika/testData" + File.separator + filename);

            if (file.exists()) {

                Metadata metadata = new Metadata();

                try (InputStream stream = new FileInputStream(file)) {

                    parser.parse(stream, handler, metadata, context);

                } catch (Exception e) { }

                handler.toString();

            }

        });

    }

}

测试数据（图片）说明及下载地址

具体说明及测试效果请参见：https://ocr.space/blog/2015/03/best-ocr-software-for-chinese.html

相关测试图片请参见：https://github.com/A9T9/OCR-Benchmark

(2)原始图片及效果（）

基于“chi_sim.traineddata ”— 即简体中文训练集

图1

转换效果如下：

【结论】

300dpi，识别率：%100

图2

转换效果如下：

Brief history

Tesseractwes orginally developed at HewlettPackard Laboratones Bristol and
atHewettPackard Co Greeley Colorado beween 1985 and 1994 wthsome
more changes made in 1996 to portto Windows and some C++zing in1998
In2005 Tesseract was open sourced by HP Since 2006 itis developed by Goosgle

Thelatest (LSTM based]j stableversionis4.10, released on July 7.2019.Latest source codes avaable from
master branch on GlHub.Openissues can be foundin ssue racker and Planning iki

Thelatest35 version 5 3.05.02 released onjune 19,2018.Latestsource code for3.055 avaable from
305 branch on GlHHub.There sno development forthisversion,butitcan be used forspecial cases .
see Regression offeatures from 30x

See Release Notes and Change Log formore detas ofthe releases-
Installing Tesseract

You can ettherInstall Tesseractvia prepulltbinary package or pulld iLfrom sourcey
Supported Complersare:

* GCC48 and above
* ang34and above
* MSVC 2015.2017.2019

Othercompllersmightwork butare notofially supportedl
Running Tesseract
Basiccommand line usage:

tesseract inagenane outputbase [-1 ]ang】 [--osn ocrenginenode] [--psn pagesegnode
[configfiles...]

Formore information aboutthe various command line options use esseract --henp or man tesseract .

Examples can befoundin thewiki
For developers

Developers can use Tbtessaract Cor

【结论】
英文，特殊符号等会识别失败。识别率：>%80

图3.

转换效果如下：

E g 气

Even as Tvanja praised 8e parties Envoyed i 功 i5 7el gzamt7 comgpi 地 08
Qchieveze1 Q 7W7Der- Ofsocial media lsers appeared crilical of er as-
Sesszet 0f 加 e Trip adiistration「5 role 加功 i5 endeavou7
IBM 表示不服 ,Google 不 care。下而让我们逐字逐句来看他们的论文
吧 , 对于争论的事情 , 自己下功夫搞清楚。

松贵莹坊办少
忠 : https:/ww.cnblogs-com/NaughtyCatpytranslate-of-google-
Quantum-supremacy-article-published-on-nature.html

Quantum supremacy using
a programmable

superconducting
processor

基于可编程的超导处理器实现的量子霸
权

动关盘源 ,https://doorg/10.1038/s41586-019-1666-5
煌收船 2019 乐 7 历 20 历
旋准 8 船 2019 乐 9 历 20 厂
坊终发疗 2019 知 10 月 23 厅

Abstract
引言

量子计算机吹牛遢说 , 对于特定的计算任务 , 基于量子处理器的计算
机 , 其速度相较于经典处理器呈指数级增长。根本的挑战在于构建一

【结论】
宋体，加粗，黑色——识别率%100；倾斜，绿色等——识别率：%70

图4（扫描件）.

转换效果如下：

节 P a
为客户服务是华为存在的睢一理由” 从公司层面
看 , 为客户创造价值的主业务流只有一个!

Ipo - nisgniedProductDevelopment

B croeis PaFA 4 辜蒙扁)

Unc - LomdTocash
芸 a npe waa8 2 菅墨

E Ig - ssueToResoliton 林
P L a 颤〉

n i t t

6 P: 01

IP0 主业务流包括 : MW 流程、0R 流程、IPD 流程

D
4 一

【结论】
pdf扫描件，只有比较大，比较粗的字能识别出来，颜色较淡的识别不出来
识别率：约%10

图5.

转化效果如下：

大行佳孔当自弼不。

。

巧者劳而春者忱 , 无能者无所必 , 作食而邀
游 , 陆若不系之舟。

。

Chacgyuisdt.

。

124565.

。
12256 dogdogunnn
。
。

【结论】
汉字、英文、数字混合
识别率：%60~%70

图6（天气网页截图）

转换效果如下：

L f

全国 > 囚川 > 尿膳 > 坂区
今夺伟 8-15 天

llc/4rc

208 238 028 058
人 [ [ 92
s
c E E
无 RR 无 RR 无 RR 无 RR

< < < <

【结论】
背景颜色（蓝色，灰色，黑色、橙色）；字体颜色（黑色、白色）。识别率：不到%10

图7.

转换效果如下：

机器人餐厅

cra arenzanmu nnanmes
seeu xraguagpt. ssepumes
人吊 pahs ztpznaapsus anea
an sro an sessuassnet
e ssoangm crmazees aas
iusiaanorg.mmouz rpeae
snreenatesezur eeae t
+ngszensenapenecieme
矿 svapgzanohat

【结论】
75dpi，识别率：约为%5 【CoderBaby】

图8（电影字幕截图）.

转换效果如下：

E
1 30
E
55

【结论】

背景颜色（渐变灰），字体为白色——识别率：%0

图9（古籍）.

转换效果如下：

茂长万灰咆
恍 “ 望泷 “ 松驱
明匹一图抚札狐
东非 “ 柳一吴
埕跃 X“ 埋煌弟
仪怀坂称鸟场 “
下泊聪遇林固 “
| 靴犹 “

【结论】

竖排，古籍版（需要“chi_tra.traineddata及“chi_tra_vert.traineddata”）——识别率：%0

图9（手机拍照图片）.

转换效果如下：

在中国 , 餐厅里的菜通常很特别 , 但是有时候做菜和服务
的人也很特别 : 不久前昆山一家餐厅开业 , 这家餐厅从欢迎宰
人、点菜、制作到上菜 , 大部分工作都由机器人完成。餐厅经理
宋育刚对他的 “ 员工 “ 很满意。这些机咤人能理解 40 句日常生

活用语 , 因此可以与顾客交流。让宋育刚最满意的是 , 他的这些
员工们既不会生病也不会请假。充电两个小时后 , 它们就又能
投入使用了 , 因此它们要比普通员工优秀。对于顾客来说 , 技术
水平有没有达到能使这些机蹇人厨师很好地调味还不得而知。
不过 , 机器人厨师倒是非常令人期待。

【结论】
手机拍照图片，还算清晰的——识别率：%100

转载请注明出处：https://www.cnblogs.com/NaughtyCat/p/tika-support-Tesseract-OCR-with-source-code-and-test-data.html

参考：

1）https://stackoverflow.com/questions/23792373/installing-tesseract-ocr-on-centos-6

2）http://www.zmonster.me/2015/04/17/tesseract-install-usage.html

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

*****************************************************************************************************

精力有限，想法太多，专注做好一件事就行

我只是一个程序猿。5年内把代码写好，技术博客字字推敲，坚持零拷贝和原创
写博客的意义在于打磨文笔，训练逻辑条理性，加深对知识的系统性理解；如果恰好又对别人有点帮助，那真是一件令人开心的事

*****************************************************************************************************

Tika结合Tesseract-OCR 实现光学汉字识别（简体、宋体的识别率百分之百）—附Java源码、测试数据和训练集下载地址的更多相关文章

tesseract ocr文字识别Android实例程序和训练工具全部源代码
tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用.可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率. 为了节省大家的学习时间,现将自己近期的学 ...
reCAPTCHA OCR 详解 , 验验证, OCR（光学自动识别）
WEB安全专题 ‍‍reCAPTCHA的诞生及意义‍‍ CMU(卡耐基梅隆大学)设计了一个名叫reCAPTCHA的强大系统,让电脑去向人类求助.具体做法是:将OCR(光学自动识别)软件无法识别的文字扫 ...
selenium使用笔记（二）——Tesseract OCR
在自动化测试过程中我们经常会遇到需要输入验证码的情况,而现在一般以图片验证码居多.通常我们处理这种情况应该用最简单的方式,让开发给个万能验证码或者直接将验证码这个环节跳过.之前在技术交流群里也跟朋友讨 ...
Tesseract ocr 3.02学习记录一
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业,一般多是印刷.打印行 ...
text recognizer (OCR) Engine 光学字符识别
https://github.com/tesseract-ocr/tesseract/wiki https://github.com/UB-Mannheim/tesseract/wiki C:\Use ...
Tesseract——OCR图像识别入门篇
Tesseract——OCR图像识别入门篇最近给了我一个任务,让我研究图像识别,从我们项目的screenshot中识别文字信息,so我开始了学习,与大家分享下. 我看到目前OCR技术有很多,最主要 ...
Tesseract Ocr引擎
Tesseract Ocr引擎 1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/t ...
开源图片文字识别引擎——Tesseract OCR
Tessseract为一款开源.免费的OCR引擎,能够支持中文十分难得.虽然其识别效果不是很理想,但是对于要求不高的中小型项目来说,已经足够用了. 文字识别可应用于许多领域,如阅读.翻译.文献资料的检 ...
Python下Tesseract Ocr引擎及安装介绍
1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码 ...

随机推荐

2020牛客寒假算法基础集训营1 J. 缪斯的影响力（矩阵快速幂/费马小定理降幂）
https://ac.nowcoder.com/acm/problem/200658 f(n) = f(n-1) * f(n-2) * ab ,f的第一项是x,第二项是y. 试着推出第三项是x·y·a ...
Xlrd模块读取Excel文件数据
Xlrd模块使用 excel文件样例:
【动态规划】【C/C++】简单的背包问题
简单的背包问题背包问题动态规划中非常经典的一个问题,本文只包含01背包,完全背包和多重背包.更加详尽的背包问题的讲解请参考崔添翼大神的<背包九讲> 简单的01背包问题导入:新年到了,m ...
SequoiaDB报告创建线程失败的解决办法
1.问题背景对于分布式数据库和分布式环境,高并发和高性能压力的情况下,出现线程创建失败等等问题也是十分常见的,这时候就十分考虑数据库管理员的经验,需要能快速的定位到问题和瓶颈所在,快速解决.本文也是 ...
Codeforces Round #602 (Div. 2, based on Technocup 2020 Elimination Round 3) A Math Problem
//只要从所有区间右端点的最小值覆盖到所有区间左端点的最大值即可 #include<iostream> using namespace std ; int x,y; int n; int ...
Outlook365(Oulook2016 或2013) 写邮件输入收件人时的推荐联系人如何清理？
· 在Outlook365(Oulook2016 或2013) 中写邮件,输入收件人邮箱地址时,会出现“最近联系人” “其他建议”等推荐的联系人,可以方便选择.如果里面有很多邮箱地址的已经无效的话, ...
CF399B Red and Blue Balls
题目 CF399B 洛谷RemoteJudge 思路很容易发现,栈中靠上的蓝色球的出栈,对它下方的蓝色球没有影响. 举个例子: 第一步中靠上的蓝色球在第三步出栈了,这一过程对它下面的蓝色球(即第一步 ...
[ZJOI2014] 力 - 多项式乘法 FFT
题意:给定 \({q_i}\),求 \[E_i = \sum_{i<j}{\frac{q_j}{(j-i)^2}} - \sum_{i>j}{\frac{q_j}{(j-i)^2}}\] ...
DTW + python 矩阵操作 + debug
1. from here. diagonalReturn specified diagonals. diagflatCreate a 2-D array with the flattened inp ...
C语言-字符串典型问题分析
1.典型问题一下面的程序输出什么为什么? #include <stdio.h> int main() { ] = {}; char src[] = ...

Tika结合Tesseract-OCR 实现光学汉字识别（简体、宋体的识别率百分之百）—附Java源码、测试数据和训练集下载地址

Tika结合Tesseract-OCR 实现光学汉字识别（简体、宋体的识别率百分之百）—附Java源码、测试数据和训练集下载地址的更多相关文章

随机推荐

热门专题