python中ocr软件tesseract使用

首先要看原版的参考

直接上代码，

import pytesseract
from PIL import Image

image = Image.open(r'D:\xingjinzi\5.jfif')

result =pytesseract.image_to_string(image,config='--psm 8 -c tessedit_char_whitelist=abceefghigklmnopqrstuvwxyz')

print(result)

# result =pytesseract.image_to_string (image,lang='eng')   #英文
# result =pytesseract.image_to_string (image,lang='chi_sim') #简体中文
result =pytesseract.image_to_string(image,config='--psm 12 -c tessedit_char_whitelist=1234567890abceefghigklmnopqrstuvwxyz')

tessedit_char_whitelist=abceefghigklmnopqrstuvwxyz  相当于白名单，集可以有哪些字符

--psm 是一个识别方向引导的内容，参考

Page segmentation modes:

0 Orientation and script detection (OSD) only.

1 Automatic page segmentation with OSD.

2 Automatic page segmentation, but no OSD, or OCR.

3 Fully automatic page segmentation, but no OSD. (Default)

4 Assume a single column of text of variable sizes.

5 Assume a single uniform block of vertically aligned text.

6 Assume a single uniform block of text.

7 Treat the image as a single text line.

8 Treat the image as a single word.

9 Treat the image as a single word in a circle.

10 Treat the image as a single character.

11 Sparse text. Find as much text as possible in no particular order.

12 Sparse text with OSD.

13 Raw line. Treat the image as a single text line,

对应的中文如下

页面分割模式：

0仅限方向和脚本检测（OSD）。

1使用OSD自动分页。

2自动页面分割，但没有OSD或OCR。

3全自动页面分割，但没有OSD。（默认）

4假设一列可变大小的文本。

5假设一个垂直对齐文本的统一块。

6假设一个统一的文本块。

7将图像视为单个文本行。

8将图像视为单个单词。

9将图像视为圆形中的单个单词。

10将图像视为单个字符。

11稀疏文字。找到尽可能多的文本，没有特定的顺序。

12带OSD的稀疏文本。

13原始线。将图像视为单个文本行

总得来说还不错的

1.语言库地址：https://github.com/tesseract-ocr/tessdata

2.语言库列表

库名	语言
afr	Afrikaans(南非荷兰语)
amh	Amharic(阿姆哈拉语)
ara	Arabic(阿拉伯语)
asm	Assamese(阿萨姆)
aze	Azerbaijani(阿塞拜疆)
aze_cyrl	Azerbaijani - Cyrilic(阿塞拜疆-Cyrilic)
bel	Belarusian(白俄罗斯)
ben	Bengali(孟加拉)
bod	Tibetan(西藏)
bos	Bosnian(波斯尼亚)
bul	Bulgarian(保加利亚语)
cat	Catalan; Valencian(加泰罗尼亚语; 巴伦西亚)
ceb	Cebuano(宿务)
ces	Czech(捷克)
chi_sim	Chinese - Simplified(中国-简体)
chi_tra	Chinese - Traditional(中国-繁体)
chr	Cherokee(切诺基)
cym	Welsh(威尔士)
dan	Danish(丹麦)
dan_frak	Danish - Fraktur(丹麦-Fraktur)
deu	German(德国)
deu_frak	German - Fraktur(德国-Fraktur)
dzo	Dzongkha(不丹文)
ell	Greek, Modern （1453-）(希腊，现代（1453-）)
eng	English(英语)
enm	English, Middle (1100-1500)(英语，中东（1100-1500）)
epo	Esperanto(世界语)
equ	Math / equation detection module(数学/方程式检测模块)
est	Estonian(爱沙尼亚)
eus	Basque(巴斯克)
fas	Persian(波斯)
fin	Finnish(芬兰)
fra	French(法语)
frk	Frankish(法兰克)
frm	French, Middle (ca.1400-1600)(法国，中东（ca.1400-1600）)
gle	Irish(爱尔兰)
glg	Galician(加利西亚)
grc	Greek, Ancient (to 1453)(希腊语，古（到1453年）)
guj	Gujarati(古吉拉特语)
hat	Haitian; Haitian Creole(海天; 海地克里奥尔语)
heb	Hebrew(希伯来语)
hin	Hindi(印地文)
hrv	Croatian(克罗地亚)
hun	Hungarian(匈牙利)
iku	Inuktitut(因纽特语)
ind	Indonesian(印尼)
isl	Icelandic(冰岛)
ita	Italian(意大利语)
ita_old	Italian - Old(意大利语-旧)
jav	Javanese(爪哇)
jpn	Japanese(日本)
kan	Kannada(卡纳达语)
kat	Georgian(格鲁吉亚)
kat_old	Georgian - Old(格鲁吉亚-旧)
kaz	Kazakh(哈萨克斯坦)
khm	Central Khmer(中央高棉)
kir	Kirghiz; Kyrgyz(柯尔克孜; 吉尔吉斯)
kor	Korean(韩国)
kur	Kurdish(库尔德人)
lao	Lao(老挝)
lat	Latin(拉丁)
lav	Latvian(拉脱维亚)
lit	Lithuanian(立陶宛)
mal	Malayalam(马拉雅拉姆语)
mar	Marathi(马拉)
mkd	Macedonian(马其顿)
mlt	Maltese(马耳他)
msa	Malay(马来文)
mya	Burmese(缅甸)
nep	Nepali(尼泊尔)
nld	Dutch; Flemish(荷兰; 佛兰芒语)
nor	Norwegian(挪威)
ori	Oriya(奥里亚语)
osd	Orientation and script detection module(定位及脚本检测模块)
pan	Panjabi; Punjabi(旁遮普语; 旁遮普语)
pol	Polish(波兰)
por	Portuguese(葡萄牙语)
pus	Pushto; Pashto(普什图语; 普什图语)
ron	Romanian; Moldavian; Moldovan(罗马尼亚; 摩尔多瓦; 摩尔多瓦)
rus	Russian(俄罗斯)
san	Sanskrit(梵文)
sin	Sinhala; Sinhalese(僧伽罗语; 僧伽罗语)
slk	Slovak(斯洛伐克)
slk_frak	Slovak - Fraktur(斯洛伐克- Fraktur)
slv	Slovenian(斯洛文尼亚)
spa	Spanish; Castilian(西班牙语; 卡斯蒂利亚)
spa_old	Spanish; Castilian - Old(西班牙语; 卡斯蒂利亚-老)
sqi	Albanian(阿尔巴尼亚)
srp	Serbian(塞尔维亚)
srp_latn	Serbian - Latin(塞尔维亚语-拉丁语)
swa	Swahili(斯瓦希里语)
swe	Swedish(瑞典)
syr	Syriac(叙利亚)
tam	Tamil(泰米尔)
tel	Telugu(泰卢固语)
tgk	Tajik(塔吉克斯坦)
tgl	Tagalog(菲律宾语)
tha	Thai(泰国)
tir	Tigrinya(提格雷语)
tur	Turkish(土耳其)
uig	Uighur; Uyghur(维吾尔族; 维吾尔)
ukr	Ukrainian(乌克兰)
urd	Urdu(乌尔都语)
uzb	Uzbek(乌兹别克斯坦)
uzb_cyrl	Uzbek - Cyrilic(乌兹别克斯坦- Cyrilic)
vie	Vietnamese(越南语)
yid	Yiddish(意第绪语)

python中ocr软件tesseract使用的更多相关文章

孤荷凌寒自学python第八十三天初次接触ocr配置tesseract环境
孤荷凌寒自学python第八十三天初次接触ocr配置tesseract环境 (完整学习过程屏幕记录视频地址在文末) 学习Python我肯定不会错过图片文字的识别,当然更重要的是简单的验证码识别了,今天 ...
python中软件开发规范,模块,序列化随笔
1.软件开发规范首先: 当代码都存放在一个py文件中时会导致 1.不便于管理,修改,增加 2.可读性差 3.加载速度慢划分文件1.启动文件(启动接口)--starts文件放bin文件里2.公共文件 ...
使用Python进行OCR -- 识别图片中的文字
工具 Tesseract pytesseract tesserocr 朋友需要一个工具,将图片中的文字提取出来.我帮他在网上找了一些OCR的应用,都不好用.所以准备自己研究,写一个Web APP供他使 ...
OCR库Tesseract初探
1.Tesseract 安装及使用一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Off ...
浅谈OCR之Tesseract
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业,一般多是印刷.打印 ...
python中协程
在引出协成概念之前先说说python的进程和线程. 进程: 进程是正在执行程序实例.执行程序的过程中,内核会讲程序代码载入虚拟内存,为程序变量分配空间,建立 bookkeeping 数据结构,来记录与 ...
Python::re 模块 -- 在Python中使用正则表达式
前言这篇文章,并不是对正则表达式的介绍,而是对Python中如何结合re模块使用正则表达式的介绍.文章的侧重点是如何使用re模块在Python语言中使用正则表达式,对于Python表达式的语法和详细 ...
Python中出现的异常
简单的写几种我知道的关于Python中出现的异常含义,希望大神批评指正,我只是学软件开发的菜鸟,前面的路还很长,我会努力学习! 什么是异常? 异常既是一个事件,该事件会在程序执行过程中发生,影响了程序 ...
Python中的字符串与字符编码
本节内容: 前言相关概念 Python中的默认编码 Python2与Python3中对字符串的支持字符编码转换一.前言 Python中的字符编码是个老生常谈的话题,同行们都写过很多这方面的文章. ...

随机推荐

[技术博客] gitlab快速部署流程
这里直接贴出少昂的个人博客链接:https://www.cnblogs.com/HansBug/p/9813627.html
[技术博客]windows中使用docker技术
背景我们的工程使用了一个叫做termux的安卓上的linux终端,这个终端在所有的软件包里硬编码了软件的运行路径(/data/data/com.termux/..),由于安卓系统的权限设计,我们名为 ...
MySQL索引原理（一）
MySQL索引原理索引目的索引的目的在于提高查询效率,可以类比字典,如果要查“mysql”这个单词,我们肯定需要定位到m字母,然后从下往下找到y字母,再找到剩下的sql.如果没有索引,那么你可能需 ...
Java虚拟机解释器与JIT编译器
一.JAVA编译相关概念 1.动态编译(dynamic compilation)指的是“在运行时进行编译”:与之相对的是事前编译(ahead-of-time compilation,简称AOT),也叫 ...
Cisco ASA 5505配置详解(v8.3之前版本）
在配ASA 5505时用到的命令 2009-11-22 22:49 nat-control命令在6.3的时候只要是穿越防火墙都需要创建转换项,比如:nat:static等等,没有转换项是不能穿越防火 ...
k8s记录-kubeam部署
#配置源[kubernetes] name=kubernetes repo baseurl=http://mirrors.aliyun.com/kubernetes/yum/repos/kuberne ...
HTML和CSS个人笔记
目录定位文字显示在图片上 ul的li元素的小圆点换成图片关于Bootstrap的响应式不要在container之外使用row 不要使用padding的时候固定高度不要使用<hr p标签 ...
helm安使用
参照:https://juejin.im/post/5b6590afe51d4519962f02b1
修改mysql max_allowed_packet 配置
1:当前默认配置 mysql> show VARIABLES like '%max_allowed_packet%';+--------------------------+---------- ...
Android EditText禁止回车换行
在做一个登录页面的时候,发现了输入手机号的EditText可以输入回车的bug,影响用户体验,在此分享下解决办法. 百度了很多,都是设置singline=true的或者设置maxLines=" ...

python中ocr软件tesseract使用

python中ocr软件tesseract使用的更多相关文章

随机推荐

热门专题