Tesseract-OCR-03-图片文字识别

本篇介绍使用 Tesseract-OCR 做图片文字识别，识别手写文字的时候，正确率能达到 90%，当训练后正确率是极高的。这里介绍的图片文字识别，可以识别英文，数字和中文等

Tesseract-OCR 图片文字识别

Tesseract：一款由HP实验室开发由Google维护的开源OCR，我们可以不断的训练的库，使图像转换文本的能力不断增强；如果团队深度需要，还可以以它为模板，开发出符合自身需求的OCR引擎
如果还没有安装 Tesseract-OCR 请参考：
- Windows下 Tesseract-OCR 的安装与环境变量配置
  https://blog.csdn.net/qq_40147863/article/details/82285920
当然配置环境也都下载上面那篇文章了，一步一图很详细

正题图片文字识别

我搜集了几个素材，懒得找可以直接下载：
https://pan.baidu.com/s/10XxYJa19KIa8-ENdQkhhHg
这里我是将图片放在了：D:\p
我们需要在 cmd 进入此目录
- 使用 cd 目录名进入目录
- 使用 cd.. 返回上一级目录
使用 Tesseract 命令：
tesseract 文件名保存的txt文件名 -l eng 例：

tesseract num1.jpg num1
这里 -l eng 是设置语言，不写的话，默认是 eng 也就是英语
结果：
注意：
- 1.这里如果报错 Tesseract 不是内部或外部命令，就是环境变量没有配置好参照：
  https://blog.csdn.net/qq_40147863/article/details/82285920
- 2.如果识别的图片文字是中文会提示，0个文字

识别手写英文

识别图片 eng2.jpg
输入命令：保存为 eng2.txt
我们对比一下结果：
这里是识别错了一个字母，把 ig 错误的识别成 S，包括上面那张数字也是错了一个
那也就是我们要努力的方向了

识别中文

这里识别中文只需要将 -l 参数改成 chi_sim 例如：
对有中文文字的图片 chi1.jpg ，进入图片路径，使用一下命令：

tesseract chi1.jpg chi1 -l chi_sim
图片样式：
执行命令：
运行结果：

识别英文和数字夹杂验证码

例如：
对图片 timg.jpg ，进入图片路径，使用一下命令：

tesseract timg.jpg timg
图片样式：
执行命令：
运行结果：

Tesseract 训练：

我们可以通过重复的训练，用更多的数据去训练，就可以达到更多高的识别正确率
我们使用 jTessBoxEditor 训练
由于 jTessBoxEditor 的安装和训练，内容比较多，我再整理一篇

更多文章链接：Tesseract 随笔

本笔记不允许任何个人和组织转载

Tesseract-OCR-03-图片文字识别的更多相关文章

基于百度OCR的图片文字识别
先上图,有图有真相首先在百度开通ORC服务,目前是免费的,普通识别每天50000次免费,非常棒! 百度文档:http://ai.baidu.com/docs#/OCR-API/top 下载百度SDK ...
Python图像处理之图片文字识别（OCR）
OCR与Tesseract介绍将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同 ...
【图片识别】java 图片文字识别 ocr （转）
http://www.cnblogs.com/inkflower/p/6642264.html 最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为 ...
java 图片文字识别 ocr
最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为java使用的demo 在此之前,使用这个工具需要在本地安装OCR工具: 下面一个是一定要安装的 ...
基于Tesseract实现图片文字识别
一.简介 Tesseract是一个开源的文本识别[OCR]引擎,可通过Apache 2.0许可获得.它可以直接使用,或者使用API从图像中提取打印的文本,支持多种语言.该软件包包含一个ORC引擎[l ...
Python识别验证码，基于Tesseract实现图片文字识别
一.简介 Tesseract是一个开源的文本识别[OCR]引擎,可通过Apache 2.0许可获得.它可以直接使用,或者使用API从图像中提取打印的文本,支持多种语言.该软件包包含一个ORC引擎[li ...
小试Office OneNote 2010的图片文字识别功能（OCR）
原文:小试Office OneNote 2010的图片文字识别功能(OCR) 自Office 2003以来,OneNote就成为了我电脑中必不可少的软件,它集各种创新功能于一身,可方便的记录下各种类型 ...
一篇文章搞定百度OCR图片文字识别API
一篇文章搞定百度OCR图片文字识别API https://www.jianshu.com/p/7905d3b12104
【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 18—Photo OCR 应用实例:图片文字识别
Lecture 18—Photo OCR 应用实例:图片文字识别 18.1 问题描述和流程图 Problem Description and Pipeline 图像文字识别需要如下步骤: 1.文字侦测 ...
[C13] 应用实例：图片文字识别(Application Example: Photo OCR)
应用实例:图片文字识别(Application Example: Photo OCR) 问题描述和流程图(Problem Description and Pipeline) 图像文字识别应用所作的事是 ...

随机推荐

maven build 添加到 META-INF 目录。
<build> <resources> <resource> <directory>src/main/resources</directory&g ...
Java编码转换
于Java当中,编码格式的转换一般较为麻烦,就我目前的经验来说,需要用到转码的环境主要是IO(无论是网络IO还是文件IO).转换方式主要有以下几种方式一:String层面 String mes ...
创建djangoapp
1.python3 manage.py startapp goods 2.startapp users 3.启动django服务器 # make new migrationspython3 manag ...
C++下遍历文件夹
编写程序遍历文件夹及其子文件夹下所有文件,并输出到标准输出流或者文件流. 1. 先考虑在单层目录下,遍历所有文件.以C:\WINDOWS为例: 用到数据结构_finddata_t,文件信息结构体的指针 ...
CDH集群安装配置（二）- 公共环境的配置和虚拟机的克隆
1. 配置网络-ip地址设置静态 vi /etc/sysconfig/network-scripts/ifcfg-eth33 增加如下配置 ONBOOT=yes BOOTPROTO=static IP ...
Delphi对Word一些进阶操作
利用VBA 编程,可以使许多日常的任务自动完成,使用户的工作更有效率. 1.在启动时显示打开对话框一般情况下启动Word,Word 会认为是创建一个新文档.如果只是想打开一个旧文档进行编辑,在Wor ...
React.js 小书 Lesson21 - ref 和 React.js 中的 DOM 操作
作者:胡子大哈原文链接:http://huziketang.com/books/react/lesson21 转载请注明出处,保留原文链接和作者信息. 在 React.js 当中你基本不需要和 DO ...
React.js 小书 Lesson19 - 挂载阶段的组件生命周期（二）
作者:胡子大哈原文链接:http://huziketang.com/books/react/lesson19 转载请注明出处,保留原文链接和作者信息. 这一节我们来讨论一下对于一个组件来说,cons ...
Android中BitmapFactory.Options详解
在Android中,BitmapFactory相信大家都很熟悉了,这个类里面的所有方法都是用来解码创建一个Bitmap,其中有一个重要的类是Options,此类用于解码Bitmap时的各种参数控制,那 ...
html中块元素的居中。及兼容性
块在块中垂直居中(父元素postion:relative; 子元素position:absolute; top:50%; margin-top:负二分之一高度) 块在块中水平居中 (子元素marg ...

Tesseract-OCR-03-图片文字识别

Tesseract-OCR-03-图片文字识别

Tesseract-OCR 图片文字识别

正题 图片文字识别

识别手写英文

识别中文

识别英文和数字夹杂验证码

Tesseract 训练：

更多文章链接：Tesseract 随笔

Tesseract-OCR-03-图片文字识别的更多相关文章

随机推荐

热门专题

正题图片文字识别