tesseract的简单使用

Tesseract 是一个开源的 OCR 引擎，可以识别多种格式的图像文件并将其转换成文本，最初由 HP 公司开发，后来由 Google 维护。下载地址：https://digi.bib.uni-mannheim.de/tesseract/

其中文件名中带有 dev 的为开发版本，不带 dev 的为稳定版本。

安装时可以添加支持的语言包，如下界面最后一个选项点开选择，我们可以选择简体中文 Chiness(Simplified)。

安装完成后还需要将安装路径添加至环境变量。

打开 cmd，输入命令 tesseract -v，看到输出版本信息即代表安装成功。

识别命令：tesseract 图片路径结果文件名 -l 语言

1、将 cmd 切换到图片所在路径，则可以只输入图片名，否则需要全路径

2、结果文件名不可以加后缀，必定会自动加 .txt 后缀，如果结果文件名写 a.txt，则最后输出的文件名为 a.txt.txt。

3、-l 是英文字母L，不是数字1，language的意思。

4、语言英文为 eng，简体中文为 chi_sim

截了个谷歌的图片来测试

输入命令：tesseract 1.png a -l eng，结果如下，识别正确

我们尝试用简体中文试试

识别就有误了。

中文的识别可以另外截图试试，只是正确率并不高。

我 tesseract 是安装在 C 盘的，在 C 盘运行命令识别没问题，但在 D 盘打开 cmd 运行命令就报错了：

Error opening data file ….

Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your “tessdata” directory.

Failed loading language ‘eng’

Teseract couldn’t load any languages!

Counld not initialize tesseract

意思就是要将 tessdata 的父文件夹路径设置为名为 TESSDATA_PREFIX 的环境变量值。设置完成之后需要重启电脑，否则依然报错。

转自：https://www.cnblogs.com/gl1573/p/9876397.html

tesseract的简单使用的更多相关文章

使用ImageMagick和Tesseract进行简单数字图像识别
使用ImageMagick和Tesseract进行简单数字图像识别由于直接使用 tesseract 进行识别,识别率很低, ImageMagick 安装.配置及使用: 平台:winXP 1. 安装I ...
百度 OCR API 的使用以及与 Tesseract 的简单对比
目录百度 OCR API 初探用 Python 调用百度 OCR API 与 Tesseract 的简单对比百度 OCR API 初探近日得知百度在其 APIStore 上开放了 OCR 的 ...
通过Tesseract实现简单的OCR
Tesseract 简介 Tesseract 的 OCR 引擎最先由 HP 实验室于 1985 年开始研发,至 1995 年时已经成为 OCR 业内最准确的三款识别引擎之一.然而,HP 不久便决定放弃 ...
Tesseract OCR简单实用介绍
做字符识别,不能不了解google的Tesseract-OCR,但是如何在自己的工程中使用其API倒是语焉不详,官网上倒是很详尽地也很啰嗦地介绍如何重新编译生成适合自己平台的lib和dll,经过近些天 ...
转：关于使用ImageMagick和Tesseract进行简单数字图像识别
据说Tesseract可是世界排名第三的OCR神器,2010年又更新了3.0版本.Tesseract原先是HP写的,现在Open Source了. 下面介绍怎么用Tesseract配合ImageMag ...
验证码识别 Tesseract的简单使用和总结
Tesseract是什么 OCR即光学字符识别,是指通过电子设备扫描纸上的打印的字符,然后翻译成计算机文字的过程.也就是说通过输入图片,经过识别引擎,去识别图片上的文字.Tesseract是一种适用于 ...
Tesseract：简单的Java光学字符识别
1.1 介绍开发具有一定价值的符号是人类特有的特征.对于人们来说识别这些符号和理解图片上的文字是非常正常的事情.与计算机那样去抓取文字不同,我们完全是基于视觉的本能去阅读它们. 另一方面,计算机的工 ...
python模拟大数据登陆
#针对tableu 撰写的大数据框架 #tesseract 识别简单的验证码不多说直接上代码 # coding:utf-8 from selenium import webdriver from ...
python pytesseract使用
正确使用方法 1.tesseract-orc安装 tesseract-ocr-setup-3.05.00dev.exe下载 2.pytesseract pip install pytesseract ...

随机推荐

HTML name、id、class 的区别
转载: 在一个页面中,有许多的控件(元素或标签).为了更方便的操作这些标签,就需要给这些标签标识一个身份牌. 目录 1. name :指定标签的名称. 2. id :指定标签的唯一标识. 3. cla ...
in与exist , not in与not exist 的区别
in和exists in 是把外表和内表作hash 连接,而exists是对外表作loop循环,每次loop循环再对内表进行查询.一直以来认为exists比in效率高的说法是不准确的. ...
github常用命令汇总
创立版本库 mkdir Baiducd Baidugit init SSHssh-keygen -t -rsa -C "TaylorApril947939@gmail"(在gith ...
吴裕雄--天生自然 R语言开发学习：时间序列（续三）
#-----------------------------------------# # R in Action (2nd ed): Chapter 15 # # Time series # # r ...
python pip配置以及安装工具包的一些方法
pip是python的一个工具包管理工具,可以下载安装需要的工具包,想要使用它来管理工具包首先要安装pip,安装方法可以参照下面这个网址来进行: https://www.cnblogs.com/Nan ...
剑指CopyOnWriteArrayList
上期回顾之前的一篇剑指ConcurrentHashMap[基于JDK1.8] 给大家详细分析了一波JUC的ConcurrentHashMap,它在线程安全的基础上提供了更好的写并发能力.那么既然有 ...
周鸿祎身价超过刘强东，A股上市的360能让周鸿祎成为中国首富吗？
不得不说,互联网大佬们的财富波动实在是太大了.股价的上涨或下跌,分分钟就是几亿.几十亿的差别--普通人十辈子都挣不到的钱! 在1月3日,持股比例为23.41%的周鸿手中的股票已经价值880.9亿元,超 ...
webpack进阶之loader篇
webpack的loaders是一大特色,也是很重要的一部分.这遍博客我将分类讲解一些常用的laoder 一.loaders之预处理 css-loader 处理css中路径引用等问题 style-l ...
BeWhatever
Hadoop Distributed File System:分布式文件系统. HDFS基于流数据模式访问和处理超大文件需求开发,具有高容错性,高可靠性,高可扩展性,多部署在低成本的硬件上.HDFS提 ...
Python 零基础入门
Python 零基础入门 1.1 Python介绍 Python 是一门优雅且健壮的面向对象解释型计算机程序编程语言,具有面向对象.可升级.可扩展.可移植语法简洁清晰易学.易读写.易维护.健壮性.通 ...

tesseract的简单使用

tesseract的简单使用的更多相关文章

随机推荐

热门专题