使用python+pytesseract实现图片中文字的识别
一.安装tesseract
1.下载链接
https://digi.bib.uni-mannheim.de/tesseract/
2.网盘下载地址
链接:https://pan.baidu.com/s/1CLPSf2TahIGaeL7zRCTQDg
提取码:x0kn
3.配置环境变量
3.1配置TESSDATA_PREFIX变量
3.2配置Path变量

4.验证是否安装成功:
C:\Users\特昂糖>tesseract -v
tesseract 4.00.00alpha
leptonica-1.74.1
libgif 4.1.6(?) : libjpeg 8d (libjpeg-turbo 1.5.0) : libpng 1.6.20 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.3 : libopenjp2 2.1.0
5.命令行使用 tesseract --list-langs命令可查看当前软件支持的语言
C:\Users\特昂糖> tesseract --list-langs
List of available languages (2):
eng
osd
6.拓展语言包
到https://github.com/tesseract-ocr/tessdata下载需要的的语言包,如下图,红框内为中文简体语言包,下载后将该包直接放在程序安装目录的tessdata文件夹里面即可。

二.安装pytesseract
安装命令:pip install pytesseract
C:\特昂糖>pip install pytesseract
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
Collecting pytesseract
Using cached pytesseract-0.3.9-py2.py3-none-any.whl (14 kB)
Collecting Pillow>=8.0.0
Downloading Pillow-9.1.0-cp39-cp39-win_amd64.whl (3.3 MB)
---------------------------------------- 0.0/3.3 MB ? eta -:--:--
ERROR: Operation cancelled by user
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
因为网络缘故下载不下来,用国内的源下载:
C:\Users\特昂糖>pip install pytesseract -i https://pypi.douban.com/simple
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
Looking in indexes: https://pypi.douban.com/simple
Collecting pytesseract
Downloading https://pypi.doubanio.com/packages/8b/0d/6efe2a9bddf1b1efe82a86fdd057f4affaeebd14347f32d03bbbbc45821c/pytesseract-0.3.9-py2.py3-none-any.whl (14 kB)
Collecting Pillow>=8.0.0
Downloading https://pypi.doubanio.com/packages/a1/ce/d3bf90ccf0c32dfd24ab88d8aaa84fb7c08a339803ed679d809b92a3e41a/Pillow-9.1.0-cp39-cp39-win_amd64.whl (3.3 MB)
---------------------------------------- 3.3/3.3 MB 3.2 MB/s eta 0:00:00
Requirement already satisfied: packaging>=21.3 in f:\python3\lib\site-packages (from pytesseract) (21.3)
Requirement already satisfied: pyparsing!=3.0.5,>=2.0.2 in f:\python3\lib\site-packages (from packaging>=21.3->pytesseract) (3.0.6)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
Installing collected packages: Pillow, pytesseract
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
Successfully installed Pillow-9.1.0 pytesseract-0.3.9
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
WARNING: Ignoring invalid distribution -ip (f:\python3\lib\site-packages)
三.python代码

import pytesseract
from PIL import Image file=r'F:/png/db63fc936bb07673a375423ce2d2cf8.png'
image=Image.open(file)
print(pytesseract.image_to_string(image,lang='chi_sim'))
输出结果:
元 日 王 安 石 ( 宋 代 爆 竹 声 中 一 岁 除 , 春 风 送 暖 入 属 苏 。
干 门 万 户 瞳 嘻 日 , 总 把 新 桃 换 旧 符 。
使用python+pytesseract实现图片中文字的识别的更多相关文章
- python+pytesseract识别图片文字
此文只介绍一下python+pytesseract识别一些简单图片的数字,字母和汉字.如图1 import pytesseract from PIL import Image,ImageEnhance ...
- Python图像处理之图片文字识别(OCR)
OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同 ...
- 使用python内置库pytesseract实现图片验证码的识别
环境准备: 1.安装Tesseract模块 git文档地址:https://digi.bib.uni-mannheim.de/tesseract/ 下载后就是一个exe安装包,直接右击安装即可,安装完 ...
- 第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别 第一步.首先下载,大神者也的倒立文字验证码识别程序 下载地址:https://gith ...
- 二十二 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
第一步.首先下载,大神者也的倒立文字验证码识别程序 下载地址:https://github.com/muchrooms/zheye 注意:此程序依赖以下模块包 Keras==2.0.1 Pillow= ...
- Python爬虫教程-29-验证码识别-Tesseract-OCR
本篇是关于验证码识别问题,也是Python爬虫笔记的一个结尾,使用 Tesseract Python爬虫教程-29-验证码识别-Tesseract-OCR 常见反爬虫手段: 验证码 1.简单图片,扭曲 ...
- Python + opencv 实现图片文字的分割
实现步骤: 1.通过水平投影对图形进行水平分割,获取每一行的图像: 2.通过垂直投影对分割的每一行图像进行垂直分割,最终确定每一个字符的坐标位置,分割出每一个字符: 先简单介绍一下投影法:分别在水平和 ...
- 人脸检测及识别python实现系列(2)——识别出人脸
人脸检测及识别python实现系列(2)——识别出人脸 http://www.cnblogs.com/neo-T/p/6430583.html
- python调用hanlp进行命名实体识别
本文分享自 6丁一的猫 的博客,主要是python调用hanlp进行命名实体识别的方法介绍.以下为分享的全文. 1.python与jdk版本位数一致 2.pip install jpype1(pyth ...
- Python实现图片滑动式验证识别
1 abstract 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类 ...
随机推荐
- [Caddy2] The Caddy Web Server 常见 Caddyfile 模式
Caddyfile 是 JSON 配置的易用写法,支持通常用的功能,完整功能还是需要 JSON 配置的. 以下适用于 Caddy2 版本的配置. 静态文件服务器 example.com root * ...
- [FAQ] Truffle Deployer 合约传参问题: Invalid number of parameters for "undefined". Got 0 expected 1!
在使用 `truffle migrate` 时,如果合约的构造函数需要传参,而部署脚本里没有传的时候,就会报这个错. 未传参时: const Migrations = artifacts.requir ...
- k8s应用---持久化存储和StorageClass(10)
一.简介: 在 k8s 中为什么要做持久化存储? 在 k8s 中部署的应用都是以 pod 容器的形式运行的,假如我们部署 MySQL.Redis 等数据库,需要 对这些数据库产生的数据做备份.因为 P ...
- QT之Mysql驱动
错误现象 找不到Mysql驱动 QSqlDatabase: QMYSQL driver not loaded 一.驱动查看 在程序中直接打印QT Creator中现有的驱动,打印方式如下: qDebu ...
- 【Python基础】两个参数的for循环步长写法
一个参数for循环步长写法 >>> for i in range(1,10000,1000):print(i) ... 1 1001 2001 3001 4001 5001 6001 ...
- 01.windows 环境设置
windows下可以安装Git工具, 使用git bash操作 Windows 10 环境下,通过-/.bash_profile 设置 git bash 别名: 打开 git bash,需切换到当前用 ...
- 密码学—DES加密的IP置换Python程序
文章目录 IP初始置换与逆置换 编程想法 转二进制过程中的提取一些数据 64为一组 IP置换 IP逆置换 DES发明人 美国IBM公司W. Tuchman 和 C. Meyer1971-1972年研制 ...
- C语言:学生成绩排名----冒泡排序
题目: /* 输入10个学生成绩. 计算总分以及平均分数. 求出高于等于平均分的人数. 再按降序(由大到小)排序成绩并输出 */ 用到的冒泡算法代码模板: / ...
- 若依报错:登录状态已过期,您可以继续留在该页面,或者重新登录;When allowCredentials is true, allowedOrigins cannot contain the special value "*" since that cannot be set on the "Access-Control-Allow-Origin" response header.
报错界面 后台报错 java.lang.IllegalArgumentException: When allowCredentials is true, allowedOrigins cannot c ...
- 安卓开发封装处理Retrofit协程请求中的异常
上篇文章讲解了怎么使用Kotlin的协程配合Retrofit发起网络请求,使用也是非常方便,但是在处理请求异常还不是很人性化.这篇文章,我们将处理异常的代码进行封装,以便对异常情况返回给页面,提供更加 ...