OCR4：Tesseract 4

Tesseract OCR 该软件包包含一个OCR引擎 - libtesseract和一个命令行程序 - tesseract。 Tesseract 4增加了一个基于OCR引擎的新神经网络（LSTM），该引擎专注于线路识别，但仍然支持Tesseract 3的传统Tesseract OCR引擎，该引擎通过识别字符模式来工作。通过使用Legacy OCR Engine模式（--oem 0）启用与Tesseract 3的兼容性。它还需要训练有素的数据文件，这些文件支持传统引擎，例如来自tessdata存储库的文件

tesseract 4.0已经加入LSTM了，在用命令行执行的时候，添加 “–oem 1”参数即可，但是pythonocr模块里并没有提供使用oem参数的init函数，查看tesseract的源码，capi.cpp定位到257行有

在外部调用的时候，只需要将以前的

handle = tesseract_raw.init(lang='eng')

修改成：

handle = tesseract_raw.init(lang='eng', oem=1)

即可。下载最新支持lstm的tessdata数据包，识别结果会比之前有大大的提高！如何在调用API的时候使用多语言，就如同命令行下的 -l eng+chi这种，还在摸索中

tesseract 4.0： https://digi.bib.uni-mannheim.de/tesseract/

安装包：https://github.com/UB-Mannheim/tesseract/wiki

安装完后测试：

参考资料

OCR4：Tesseract 4的更多相关文章

OCR2：tesseract字库训练
由于tesseract的中文语言包“chi_sim”对中文字体或者环境比较复杂的图片,识别正确率不高,因此需要针对特定情况用自己的样本进行训练,提高识别率,通过训练,也可以形成自己的语言库. 工具: ...
OCR3：tesseract script
通过命令:tesseract -h 可查看 OCR操作脚本参数: 其中参数说明: –-oem:指定使用的算法,0:代表老的算法:1:代表LSTM算法:2:代表两者的结合:3:代表系统自己选择. –-p ...
Tesseract：简单的Java光学字符识别
1.1 介绍开发具有一定价值的符号是人类特有的特征.对于人们来说识别这些符号和理解图片上的文字是非常正常的事情.与计算机那样去抓取文字不同,我们完全是基于视觉的本能去阅读它们. 另一方面,计算机的工 ...
selenium使用笔记（二）——Tesseract OCR
在自动化测试过程中我们经常会遇到需要输入验证码的情况,而现在一般以图片验证码居多.通常我们处理这种情况应该用最简单的方式,让开发给个万能验证码或者直接将验证码这个环节跳过.之前在技术交流群里也跟朋友讨 ...
tesseract 编译与使用（windows）
tesseract是google的一个开源OCR项目,项目地址已经迁移到github(现在 2016/09),地址 https://github.com/tesseract-ocr/tesseract ...
Atititi tesseract使用总结
Atititi tesseract使用总结消除bug,优化,重新发布.当前版本为3.02 项目下载地址为:http://code.google.com/p/tesseract-ocr. Window ...
Tesseract 对验证码的识别原理和实现步骤
一. Steps: 学习图片库--->处理图片(初步处理)--->校正.学习图片二. Tesseract: 1. 采集图片库(一般每个出现的字符出现20次左右识别效果比较好),根据图片特 ...
使用Tesseract OCR识别验证码
1.下载Tessrac OCR,默认安装 2.把验证码code.jpg图片放在D盘 3.打开cmd,进入D盘,输入:tesseract code.jpg result 4.进入D盘,生成了resul ...
Tesseract训练笔记
[参考] http://www.cnblogs.com/samlin/p/Tesseract-OCR.html https://code.google.com/p/tesseract-ocr/wiki ...

随机推荐

总结敏捷开发之Scrum
敏捷开发的概念敏捷开发是一种以人为核心,迭代,循序渐进的开发方法. 为什么说是以人为核心?传统的瀑布模型是以文档驱动的,但是在敏捷中,只写少量的文档,注重的是人与人之间面对面的交流. 什么是迭代?迭 ...
Vue 实现点击展开收起
Vue 展开收起功能实现之前写项目的时候提到了一个需求展开/收起所有内容的需求 .因之前一值是重构,自己写功能还是比较少的,于是网上搜了一下,发现很多东西其实是jq的功能虽然可以拿过来用,但是 ...
Layui 模板引擎中的日期格式化
原文:https://www.jianshu.com/p/948a474b5ed7 原文:https://blog.csdn.net/DCFANS/article/details/92064112 模 ...
【cf补题记录】Codeforces Round #608 (Div. 2)
比赛传送门再次改下写博客的格式,以锻炼自己码字能力 A. Suits 题意:有四种材料,第一套西装需要 \(a\).\(d\) 各一件,卖 \(e\) 块:第二套西装需要 \(b\).\(c\).\ ...
Perl 使用perl命令批量替换文件内容
对linux系统下面多个文本文件内容做处理,是SA经常需要完成的工作.如何高效的完成这个工作,perl应该是一个不错的语言工具.你甚至不需要编写perl脚本,用命令就可以完成上面的工作. perl 命 ...
zabbix解决监控图形中文乱码
原文: https://blog.csdn.net/xujiamin0022016/article/details/86541783 zabbix 4解决监控图形中文乱码首先在windows里找到你想 ...
一个sh脚本同时运行多个sh脚本
问题: 原来的启动方式 cd /opt/OpenIMSCore ./pcscf.sh ./icscf.sh ./scscf.sh cd /opt/OpenIMSCore/FHoSS/deploy ./ ...
【转】android实时视频网络传输方案总结（一共有五套）
最近研究了Android的实时视频网络传输问题,在视频处理方面花费了大量精力进行研究,总结出以下五套方案,并加以比较以320×240大小的视频传输为例方案压缩率压缩/传输方式实时性平均流量 ...
React的状态管理工具
Mobx-React : 当前最适合React的状态管理工具 MobX 简单.可扩展的状态管理 MobX 是由 Mendix.Coinbase.Facebook 开源和众多个人赞助商 ...
[原创]K8域控植入脚本生成器(内网渗透/RPC不可用解决方案)
0x001 简介当IPC或WMI无法访问域内机器时,可通过脚本上控. 我们可以在个人机的开机注销重启脚本里配置持久化. 域环境下同样也有开机脚本,但得在在域控机器配置可以使用BAT\VBS等脚本, ...

OCR4：Tesseract 4

OCR4：Tesseract 4的更多相关文章

随机推荐

热门专题