java从图片中识别文字



package com.dream.common;

import java.awt.image.BufferedImage;

import java.io.File;

import java.io.IOException;

import java.util.Iterator;

import java.util.Locale;

import javax.imageio.IIOImage;

import javax.imageio.ImageIO;

import javax.imageio.ImageReader;

import javax.imageio.ImageWriteParam;

import javax.imageio.ImageWriter;

import javax.imageio.metadata.IIOMetadata;

import javax.imageio.stream.FileImageInputStream;

import javax.imageio.stream.ImageInputStream;

import javax.imageio.stream.ImageOutputStream;

import com.github.jaiimageio.plugins.tiff.TIFFImageWriteParam;

/**

 * 识别图片中的文字

 *

 * @author zlj

 *

 */

public class ImageIOHelper {

	/**

	 * 创建临时图片文件

	 *

	 * @param imageFile

	 * @return

	 * @throws IOException

	 */

	public File createImage(File imageFile) throws IOException {

		Iterator&lt;ImageReader&gt; readers = ImageIO.getImageReaders(new FileImageInputStream(imageFile));

		ImageReader reader = readers.next();

		ImageInputStream iis = ImageIO.createImageInputStream(imageFile);

		reader.setInput(iis);

		IIOMetadata streamMetadata = reader.getStreamMetadata();

		TIFFImageWriteParam tiffWriteParam = new TIFFImageWriteParam(Locale.CHINESE);

		tiffWriteParam.setCompressionMode(ImageWriteParam.MODE_DISABLED);

		Iterator&lt;ImageWriter&gt; writers = ImageIO.getImageWritersByFormatName("tiff");

		ImageWriter writer = writers.next();

		BufferedImage bi = reader.read(0);

		IIOImage image = new IIOImage(bi, null, reader.getImageMetadata(0));

		File tempFile = tempImageFile(imageFile);

		ImageOutputStream ios = ImageIO.createImageOutputStream(tempFile);

		writer.setOutput(ios);

		writer.write(streamMetadata, image, tiffWriteParam);

		ios.close();

		iis.close();

		writer.dispose();

		reader.dispose();

		return tempFile;

	}

	/**

	 * 添加后缀 tempfile

	 *

	 * @param imageFile

	 * @return

	 * @throws IOException

	 */

	private File tempImageFile(File imageFile) throws IOException {

		String path = imageFile.getPath();

		StringBuffer strB = new StringBuffer(path);

		strB.insert(path.lastIndexOf('.'), "_text_recognize_temp");

		String s = strB.toString().replaceFirst("(?&lt;=//.)(//w+)$", "tif");

		Runtime.getRuntime().exec("attrib " + "\"" + s + "\"" + " +H"); // 设置文件隐藏

		return new File(strB.toString());

	}

}package com.dream.common;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.util.ArrayList;

import java.util.List;

import org.jdesktop.swingx.util.OS;

/**

 * 从图片中识别文字

 * @author zlj

 *

 */

public class OCRUtil {

	private final String LANG_OPTION = "-l"; // 英文字母小写l，并非数字1

	private final String EOL = System.getProperty("line.separator");

	private String tessPath = "C://Program Files (x86)//Tesseract-OCR";// ocr默认安装路径

	private String transname = "chi_sim";// 默认中文语言包，识别中文

	/**

	 * 从图片中识别文字

	 * @param imageFile

	 * @param imageFormat

	 * @return text recognized in image

	 * @throws Exception

	 */

	public String recognizeText(File imageFile) throws Exception {

		File tempImage = new ImageIOHelper().createImage(imageFile);

		return ocrImages(tempImage, imageFile);

	}

	/**

	 * 识别图片中的文字

	 * @param tempImage

	 * @param imageFile

	 * @return

	 * @throws IOException

	 * @throws InterruptedException

	 */

	private String ocrImages(File tempImage, File imageFile) throws IOException, InterruptedException {

		File outputFile = new File(imageFile.getParentFile(), "output");

		Runtime.getRuntime().exec("attrib " + "\"" + outputFile.getAbsolutePath() + "\"" + " +H"); // 设置文件隐藏

		StringBuffer strB = new StringBuffer();

		List&lt;String&gt; cmd = new ArrayList&lt;String&gt;();

		if (OS.isWindowsXP()) {

			cmd.add(tessPath + "//tesseract");

		} else if (OS.isLinux()) {

			cmd.add("tesseract");

		} else {

			cmd.add(tessPath + "//tesseract");

		}

		cmd.add("");

		cmd.add(outputFile.getName());

		cmd.add(LANG_OPTION);

		cmd.add(transname);

		ProcessBuilder pb = new ProcessBuilder();

		pb.directory(imageFile.getParentFile());

		cmd.set(1, tempImage.getName());

		pb.command(cmd);

		pb.redirectErrorStream(true);

		Process process = pb.start();

		int w = process.waitFor();

		tempImage.delete();// 删除临时正在工作文件

		if (w == 0) {

			BufferedReader in = new BufferedReader(

					new InputStreamReader(new FileInputStream(outputFile.getAbsolutePath() + ".txt"), "UTF-8"));

			String str;

			while ((str = in.readLine()) != null) {

				strB.append(str).append(EOL);

			}

			in.close();

		} else {

			String msg;

			switch (w) {

			case 1:

				msg = "Errors accessing files.There may be spaces in your image's filename.";

				break;

			case 29:

				msg = "Cannot recongnize the image or its selected region.";

				break;

			case 31:

				msg = "Unsupported image format.";

				break;

			default:

				msg = "Errors occurred.";

			}

			tempImage.delete();

			throw new RuntimeException(msg);

		}

		new File(outputFile.getAbsolutePath() + ".txt").delete();

		return strB.toString();

	}

	public static void main(String[] args) throws Exception {

		System.out.println("begin");

		String path = "F://test1.png";

		String valCode = new OCRUtil().recognizeText(new File(path));

		System.out.println(valCode);

		System.out.println("end");

	}

}

java从图片中识别文字的更多相关文章

JAVA 进行图片中文字识别（准确度高）！！！
OCR 识别文字项目该项目可以进行两种方式进行身份证识别 1. 使用百度接口 1.1 application-dev.yml配置 ocr: # 使用baiduOcr 需要有Ocr服务器使用百度需 ...
使用Python进行OCR -- 识别图片中的文字
工具 Tesseract pytesseract tesserocr 朋友需要一个工具,将图片中的文字提取出来.我帮他在网上找了一些OCR的应用,都不好用.所以准备自己研究,写一个Web APP供他使 ...
电脑端的全能扫描王：图片转文字识别、识别pdf、图片中的文字，图片提取txt
手机中有全能扫描王,但PC端没有.所以需要另外找. 发现微软的oneNode有提供类似的功能. 第一步.下载Microsoft OneNode http://www.onenote.com/downl ...
C# 扫描识别图片中的文字（.NET Framework）
环境配置本文以C#及VB.NET代码为例,介绍如何扫描并读取图片中的文字. 本次程序环境如下: Visual Studio版本要求不低于2017 图片扫描工具:Spire.OCR for .NET ...
Python识别图片中的文字
1 import os,glob 2 def photo_compression(original_imgage,tmp_image_path): 3 '''图片备份.压缩:param origina ...
Azure 认知服务 (4) 计算机视觉API - 读取图片中的文字 (OCR)
<Windows Azure Platform 系列文章目录> 微软Azure认知服务的计算机视觉API,还提供读取图片中的文字功能在海外的Windows Azure认知服务的读取图片功 ...
如何用ABBYY FineReader提取图片中的文字
作为OCR文字识别软件中的佼佼者,可能大家对于ABBYY FineReader的使用还不熟练,没关系,今天小编就为大家演示,如何用ABBYY FineReader这款文字识别软件,将一张截图中的文字识 ...
Python实战：截图识别文字，过万使用量版本！（附源码！！）
前人栽树后人乘凉,以不造轮子为由使用百度的图片识字功能,实现了一个上万次使用量的脚本. 系统:win10 Python版本:python3.8.6 pycharm版本:pycharm 2021.1. ...
制作大漠字库并用python调用大漠工具方法来识别文字
1.制作字库 1.截取需要的图片 2.这里截取了"火狐主页"四个字,接下来抓取文字的颜色 3.颜色由是由三个部分组成,即R G B其中的R是由00-FF(16进制) 即0-255个 ...

随机推荐

HDU 5340——Three Palindromes——————【manacher处理回文串】
Three Palindromes Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others ...
vue学习笔记 vue
目前为止对vue完全懵逼. 对着菜鸟教程,现在我尝试梳理下. 服务我已经启起来.可以看到页面在src/App.vue里面有展示模板<template></template> ...
Win7无法将图标(Chrome谷歌浏览器更新后无法锁定也适用)锁定到任务栏解决办法
“将程序锁定到任务栏”是Windows 7中的一个非常有用的功能,它比之前的快速启动栏要来得简洁.但是我用了一段时间之后,发现“锁定到任务栏”这一个选项消失了,对图标点右键找不到这个图标,直接把图标拖 ...
14.C#/.NET编程中的常见异常（持续更新）
1.Object reference not set to an instance of an object. 未将对象引用(引用)到对象的实例,说白了就是有个对象为null,但是你在用它点出来的各种 ...
fiddler filters 使用（fiddler只显示指定请求，fiddler不显示指定请求，即filter请求过滤）（转）
fiddler filters 使用(fiddler只显示指定请求,fiddler不显示指定请求,即filter请求过滤) Fiddler 有一个filters可以很好的帮助我们只显示我们关系的请求或 ...
让你迅速了解redis
(1)什么是redis? Redis 是一个基于内存的高性能key-value数据库. (2)Reids的特点 Redis本质上是一个Key-Value类型的内存数据库,很像memcached,整个数 ...
spoon kettle连接数据库失败解决方法
Driver class 'oracle.jdbc.driver.OracleDriver' could not be found, make sure the 'Oracle' driver (ja ...
tomcat启动部署APP报错：This is very likely to create a memory leak
This is very likely to create a memory leak的错误,网上很多,原因也是各种各样,这里也仅提供一个解决的思路. 问题描述:启动tomcat时,不能访问部署的AP ...
如何查询mysql中date类型的时间范围记录？
java date类型会不会自动转换 mysql date类型? 抹除掉后面时间 ? 时间不是查询条件?
BZOJ 4679/Hdu5331 Simple Problem LCT or 树链剖分
4679: Hdu5331 Simple Problem 题意: 考场上,看到这道题就让我想起BZOJ4712洪水.然后思路就被带着飞起了,完全没去考虑一条链的情况,于是GG. 解法:先考虑一条链的做 ...

java从图片中识别文字

java从图片中识别文字的更多相关文章

随机推荐

热门专题