java 读取pdf、word、Excel文件

用到的jar：

itextpdf-5.5.8.jar （PDF）

poi.jar

public class FileUtils {

	/**

	 * 判断文件是否存在

	 *

	 * @Title: isExcite

	 * @param @param filePath

	 * @param @return

	 * @return boolean 返回类型

	 * @throws

	 */

	public static boolean isExcite(String filePath) {

		File file = new File(filePath);

		// 如果文件夹不存在则创建

		if (!file.exists() && !file.isDirectory()) {

			return false;

		} else {

			return true;

		}

	}

	/**

	 *

	 * @Title: getPdfFileText

	 * @Description: 获取指定位置pdf的文件内容

	 * @param @param fileName

	 * @param @return

	 * @param @throws IOException

	 * @return String 返回类型

	 * @throws

	 */

	public static String getPdfFileText(String fileName) throws IOException {

		PdfReader reader = new PdfReader(fileName);

		PdfReaderContentParser parser = new PdfReaderContentParser(reader);

		StringBuffer buff = new StringBuffer();

		TextExtractionStrategy strategy;

		for (int i = 1; i <= reader.getNumberOfPages(); i++) {

			strategy = parser.processContent(i,

					new SimpleTextExtractionStrategy());

			buff.append(strategy.getResultantText());

		}

		return buff.toString();

	}

	/**

	 * 获取doc文档

	 *

	 * @Title: getTextFromWord

	 * @param @param filePath

	 * @param @return

	 * @return String 返回类型

	 * @throws

	 */

	public static String getTextFromWord(String filePath) {

		String result = null;

		File file = new File(filePath);

		try {

			FileInputStream fis = new FileInputStream(file);

			WordExtractor wordExtractor = new WordExtractor(fis);

			result = wordExtractor.getText();

		} catch (FileNotFoundException e) {

			e.printStackTrace();

		} catch (IOException e) {

			e.printStackTrace();

		}

		return result;

	}

	/**

	 * 读取excel内容

	 *

	 * @Title: getTextFromExcel

	 * @param @param filePath

	 * @param @return

	 * @return String 返回类型

	 * @throws

	 */

	public static String getTextFromExcel(String filePath) {

		StringBuffer buff = new StringBuffer();

		try {

			// 创建对Excel工作簿文件的引用

			HSSFWorkbook wb = new HSSFWorkbook(new FileInputStream(filePath));

			// 创建对工作表的引用。

			for (int numSheets = 0; numSheets < wb.getNumberOfSheets(); numSheets++) {

				if (null != wb.getSheetAt(numSheets)) {

					HSSFSheet aSheet = wb.getSheetAt(numSheets);// 获得一个sheet

					for (int rowNumOfSheet = 0; rowNumOfSheet <= aSheet

							.getLastRowNum(); rowNumOfSheet++) {

						if (null != aSheet.getRow(rowNumOfSheet)) {

							HSSFRow aRow = aSheet.getRow(rowNumOfSheet); // 获得一个行

							for (int cellNumOfRow = 0; cellNumOfRow <= aRow

									.getLastCellNum(); cellNumOfRow++) {

								if (null != aRow.getCell(cellNumOfRow)) {

									HSSFCell aCell = aRow.getCell(cellNumOfRow);// 获得列值

									switch (aCell.getCellType()) {

									case HSSFCell.CELL_TYPE_FORMULA:

										break;

									case HSSFCell.CELL_TYPE_NUMERIC:

										buff

												.append(

														aCell

																.getNumericCellValue())

												.append('\t');

										break;

									case HSSFCell.CELL_TYPE_STRING:

										buff.append(aCell.getStringCellValue())

												.append('\t');

										break;

									}

								}

							}

							buff.append('\n');

						}

					}

				}

			}

		} catch (FileNotFoundException e) {

			e.printStackTrace();

		} catch (IOException e) {

			e.printStackTrace();

		}

		return buff.toString();

	}

	/**

	 * 替换文件内容

	 * @Title: replaceContentToFile

	 * @param @param path  文件路径

	 * @param @param str   要替换的内容

	 * @param @param con   替换称的内容

	 * @return void 返回类型

	 * @throws

	 */

	public static void replaceContentToFile(String path, String str, String con) {

		try {

			if (isExcite(path)) {

				FileReader read = new FileReader(path);

				BufferedReader br = new BufferedReader(read);

				StringBuilder content = new StringBuilder();

				while (br.ready() != false) {

					content.append(br.readLine());

					content.append("\r\n");

				}

				int dex = content.indexOf(str);

				if (dex != -1) {

					System.out.println("找到标记!");

				} else {

					System.out.println("指定标记不存在!");

				}

				content.replace(dex, dex, con);

				br.close();

				read.close();

				FileOutputStream fs = new FileOutputStream(path);

				fs.write(content.toString().getBytes());

				fs.close();

			} else {

				System.out.println("文件不存在!");

			}

		} catch (FileNotFoundException e) {

			e.printStackTrace();

		} catch (IOException e) {

			e.printStackTrace();

		}

	}

}

　　留着以后直接拿过来用。

java 读取pdf、word、Excel文件的更多相关文章

Java解析OFFICE(word,excel,powerpoint)以及PDF的实现方案及开发中的点滴分享
Java解析OFFICE(word,excel,powerpoint)以及PDF的实现方案及开发中的点滴分享在此,先分享下写此文前的经历与感受,我所有的感觉浓缩到一个字,那就是:"坑&qu ...
Java中使用POI读取大的Excel文件或者输入流时发生out of memory异常参考解决方案
注意:此参考解决方案只是针对xlsx格式的excel文件! 背景前一段时间遇到一种情况,服务器经常宕机,而且没有规律性,查看GC日志发生了out of memory,是堆溢出导致的,分析了一下堆的d ...
java使用POI实现excel文件的读取，兼容后缀名xls和xlsx
需要用的jar包如下: 如果是maven管理的项目,添加依赖如下: <!-- https://mvnrepository.com/artifact/org.apache.poi/poi --&g ...
java读取各类型的文件
java读取各类型的文件用到的几个包 bcmail-jdk14-132.jar/bcprov-jdk14-132.jar/checkstyle-all-4.2.jar/FontBox-0.1.0-d ...
PDF/WORD/EXCEL 图片预览
一.PDF/WORD/EXCEL 转 XPS 转第一页内容转图片 WORD.EXCEL转XPS (Office2010) public bool WordToXPS(string sourceP ...
java 如何将 word,excel,ppt如何转pdf--jacob
问题:java 如果将 word,excel,ppt如何转pdf 我个人的观点:windows server下用 jacob; linux server下用openoffice. PS:1.本文 ...
java导入、导出Excel文件
一.介绍当前B/S模式已成为应用开发的主流,而在企业办公系统中,常常有客户这样子要求:你要把我们的报表直接用Excel打开(电信系统.银行系统).或者是:我们已经习惯用Excel打印.这样在我们实际 ...
Java生成和操作Excel文件(转载)
Java生成和操作Excel文件 JAVA EXCEL API:是一开放源码项目,通过它Java开发人员可以读取Excel文件的内容.创建新的Excel文件.更新已经存在的Excel文件.使用该A ...
c++ 读取并解析excel文件方法
用Cocos开发模型特效工具编辑器,跨Mac和windows,当中有个需求是读取并解析excel文件,但网上的查找的例子几乎都只能是在windows下面使用,再或者是命令行脚本之类的.于是,自己写了一 ...
java读取pdf文本转换html
补充:一下代码基于maven,现将依赖的jar包单独导出地址:pdf jar 完整代码地址也就两个文件 java读取pdf中的纯文字,这里使用的是pdfbox工具包 maven引入如下配置 < ...

随机推荐

Bzoj2118 墨墨的等式
Time Limit: 10 Sec Memory Limit: 259 MBSubmit: 1488 Solved: 578 Description 墨墨突然对等式很感兴趣,他正在研究a1x1+ ...
[Objective-C 面试简要笔记]
Obj-C: 1.消息机制 [shape draw] 向该对象发送消息,该对象查找并运行此函数差不多就是shape.draw(); 2.中缀语法 [textThing setStringValue ...
ubantu安装sogou输入法
Ubuntu的搜狗输入法安装步骤 1 本来想先移除ibus,但是在之后发现如果直接使用下面的命令 sudo apt-get remove ibus 移除ibus将导致系统某些地方不正常的问题,例如 ...
CSS 公共样式分享
global.css | reset.css(格式化样式) common.css(公共组件样式) layout.css(当前页面样式) 清除全站所有页面的浏览器默认样式,保证在初始样式在所有浏览器下一 ...
f
module.exports = util; }); 除了define之外,我们看到module.exports = util;这一句比较特殊.这句是在说,我util模块向外暴露的接口就这些,其他所 ...
JavaScript Ajax之美~
JavaScript Ajax之美~ 曾经有一段时期,因为开发人员对JavaScript的滥用导致其遭受了一段时间的冷门时期,不被大家看好,后来,到了2005年,Google公司的很多技术都是用了aj ...
JavaScript学习笔记——BOM_window子对象_History、Location、Screnn对象
javascript-History.Location.Screnn对象实例讲解一.history对象包含浏览器访问过的url 1.属性 length 返回浏览器历史记录的数量 alert(his ...
《深入理解bootstrap》读书笔记：第二章整体架构
一. 整体架构 1. CSS-12栅格系统把网页宽度均分为12等分(保留15位精度)--这是bootstrap的核心功能. 2.基础布局组件包括排版.按钮.表格.布局.表单等等. 3.jQu ...
DB服务器中的参数优化
1.swappiness 禁止系统使用swap空间,配置/etc/sysctl.conf中的vm.swappiness=0 2.Scheduler调度 Scheduler调度,指的是磁盘的IO调度算法 ...
ecshop 后台模板设置-》设置模板
ecshop后台“设置模板”出现问题问题1:不能出现特殊符号 / &l ...

java 读取pdf、word、Excel文件

java 读取pdf、word、Excel文件的更多相关文章

随机推荐

热门专题