python实现中文图片文字识别--OCR about chinese text--tesseract

0.我的环境：

win7 32bits

python 3.5

pycharm 5.0

1.相关库

安装pillow：

pip install pillow

安装tesseract：

tesseract-ocr-setup-3.02.02.exe

自带了英文语言包，如果需要中文语言包往下找即可。

或者在安装的时候，在选项lang处，点选chi-sim即可。

安装完毕后，会儿自动加入系统环境变量中。

安装pytesseract：

pip install pytesseract

2.修改pytesseract.py原文件

# tesseract_cmd = 'tesseract'

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

#如果不修改，会报错：FileNotFoundError: [WinError 2] 系统找不到指定的文件。

#f = open(output_file_name)

f = open(output_file_name, encoding='utf-8')

#如果不修改，会儿报错：UnicodeDecodeError: 'gbk' codec can't decode byte 0xyy in position xxx: illegal multibyte sequence

3.小程序，测试一下

 #coding:utf-8

 #Test one page

 import pytesseract

 from PIL import Image

 def processImage():

     image = Image.open('test.png')

     #背景色处理，可有可无

     image = image.point(lambda x: 0 if x < 143 else 255)

     newFilePath = 'raw-test.png'

     image.save(newFilePath)

     content = pytesseract.image_to_string(Image.open(newFilePath), lang='eng')

     #中文图片的话，是lang='chi_sim'

     print(content)

 processImage()

python实现中文图片文字识别--OCR about chinese text--tesseract的更多相关文章

【图片识别】java 图片文字识别 ocr （转）
http://www.cnblogs.com/inkflower/p/6642264.html 最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为 ...
java 图片文字识别 ocr
最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为java使用的demo 在此之前,使用这个工具需要在本地安装OCR工具: 下面一个是一定要安装的 ...
Python图像处理之图片文字识别（OCR）
OCR与Tesseract介绍将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同 ...
如何大批量的识别图片上的文字，批量图片文字识别OCR软件系统
软件不需要安装,直接双击打开就可以用,废话不多说直接上图好了,方便说明问题批量图片OCR(批量名片识别.批量照片识别等)识别,然后就下来研究了一下,下面是成果使用步骤:打开单个图片识别,导入文件夹 ...
Python人工智能之图片识别，Python3一行代码实现图片文字识别
1.Python人工智能之图片识别,Python3一行代码实现图片文字识别 2.tesseract-ocr安装包和中文语言包注意:
小试Office OneNote 2010的图片文字识别功能（OCR）
原文:小试Office OneNote 2010的图片文字识别功能(OCR) 自Office 2003以来,OneNote就成为了我电脑中必不可少的软件,它集各种创新功能于一身,可方便的记录下各种类型 ...
一篇文章搞定百度OCR图片文字识别API
一篇文章搞定百度OCR图片文字识别API https://www.jianshu.com/p/7905d3b12104
【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 18—Photo OCR 应用实例:图片文字识别
Lecture 18—Photo OCR 应用实例:图片文字识别 18.1 问题描述和流程图 Problem Description and Pipeline 图像文字识别需要如下步骤: 1.文字侦测 ...
[C13] 应用实例：图片文字识别(Application Example: Photo OCR)
应用实例:图片文字识别(Application Example: Photo OCR) 问题描述和流程图(Problem Description and Pipeline) 图像文字识别应用所作的事是 ...

随机推荐

POJ3295 Tautology(枚举)
题目链接. 分析: 最多有五个变量,所以枚举所有的真假值,从后向前借助于栈验证是否为永真式. #include <iostream> #include <cstring> #i ...
无向图求割点 UVA 315 Network
输入数据处理正确其余的就是套强联通的模板了 #include <iostream> #include <cstdlib> #include <cstdio> #in ...
CSU 1160 把十进制整数转换为十六进制，格式为0x开头，10~15由大写字母A~F表示
题目链接: http://acm.hust.edu.cn/vjudge/contest/view.action?cid=82974#problem/A 解题思路: 将16进制的表示方法列在一个数组里面 ...
Java程序员需要注意的五大Docker误区
Docker现在很火,容器技术看上不无所不能,但这实际上是一种误解,不要被炒作出来的泡沫迷住双眼,本文抛去炒作,理性地从Java程序员的角度,列举出Docker目前的五大误区,帮助你更好地理解Dock ...
TreeSet具体应用
知识是用来运用的,一辈子用不上的等于没学,学了忘了的等于没学,学了不会用的等于没学 //TreeSetDemo2.java package saturday2; import java.util.Ha ...
JQuery的ready函数与JS的onload的区别详解
JQuery的ready函数与JS的onload的区别:1.执行时间window.onload必须等到页面内包括图片的所有元素加载完毕后才能执行.$(document).ready()是DOM结构绘制 ...
tcp/ip状态图
开启一个连接需要三次握手,终止一个tcp连接需要4次握手,对应的客户端和服务器连接状态也随之而改变. 1.服务器出现大量的CLOSE_WAIT? 通常,CLOSE_WAIT 状态在服务器停留时间很短, ...
C++ —— 非常量引用不能指向临时对象
目录举例分析解决 1.举例非常量引用指向临时对象 —— 即:将临时对象传递给非常量引用类型. 如以下情况就会出现: 实现实数Rational类,实数可以使用+号相加,运算的结果要可以 ...
linux下svn客户端安装及环境配置(转)
一. 源文件编译安装.源文件共两个,为: 1. 下载subversion源文件 subversion-1.6.1.tar.gz http://d136.d.iask.com/fs/800/1 ...
mysql 变量is null 和 not exists区别
问题: 使用游标遍历时,发现使用 select var into tmp where var=? 然后判断if tmp is null时,不能走完所有的遍历.经debug发现, 当var为空时,则跳出 ...

python实现中文图片文字识别--OCR about chinese text--tesseract

python实现中文图片文字识别--OCR about chinese text--tesseract的更多相关文章

随机推荐

热门专题