Java读取各种文件格式内容
所需的jar包哦也不要太记得了,大家可以搜搜,直接上代码:
import java.io.BufferedInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.text.NumberFormat; import org.apache.commons.io.FileUtils;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.poi.POIXMLDocument;
import org.apache.poi.hssf.usermodel.HSSFCell;
import org.apache.poi.hssf.usermodel.HSSFRow;
import org.apache.poi.hssf.usermodel.HSSFSheet;
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.ss.usermodel.Cell;
import org.apache.poi.xssf.usermodel.XSSFCell;
import org.apache.poi.xssf.usermodel.XSSFRow;
import org.apache.poi.xssf.usermodel.XSSFSheet;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor; /**
*文件内容读取转换器
*/
public class ReadFileConverter
{ public String getContents(String path) throws Exception
{
String contents = "";
int index = path.lastIndexOf(".");
String file_suffix = path.substring(index+1).toLowerCase();
if(file_suffix.equalsIgnoreCase("txt")||file_suffix.equalsIgnoreCase("log")){
contents = this.readTXT(path);
}
else if(file_suffix.equalsIgnoreCase("xls")){
contents = this.readXLS(path);
}
else if(file_suffix.equalsIgnoreCase("xlsx")){
contents = this.readXLSX(path);
}
else if(file_suffix.equalsIgnoreCase("doc")){
contents = this.readDOC(path);
}
else if(file_suffix.equalsIgnoreCase("docx")){
contents = this.readDOCX(path);
}
else if(file_suffix.equalsIgnoreCase("pdf")){
contents = this.readPDF(path);
}
return contents;
} public String readXLS(String file) throws Exception
{
StringBuilder content = new StringBuilder();
HSSFWorkbook workbook = new HSSFWorkbook(new FileInputStream(file));
try{
for(int numSheets = 0; numSheets < workbook.getNumberOfSheets(); numSheets++){
if (null != workbook.getSheetAt(numSheets)){
HSSFSheet aSheet = workbook.getSheetAt(numSheets);// 获得一个sheet
for(int rowNumOfSheet = 0; rowNumOfSheet <= aSheet.getLastRowNum(); rowNumOfSheet++){
if (null != aSheet.getRow(rowNumOfSheet)){
HSSFRow aRow = aSheet.getRow(rowNumOfSheet); // 获得一个行
for(short cellNumOfRow = 0; cellNumOfRow <= aRow.getLastCellNum(); cellNumOfRow++){
if (null != aRow.getCell(cellNumOfRow)){
HSSFCell aCell = aRow.getCell(cellNumOfRow);// 获得列值
if (this.convertCell(aCell).length() > 0){
content.append(this.convertCell(aCell));
}
}
content.append("\n");
}
}
}
}
}
}
catch(Exception e){
content.append("xls文件格式不对或损坏");
}
finally{
if(workbook!=null){
workbook.close();
}
}
return content.toString();
} public String readXLSX(String file) throws Exception
{
StringBuilder content = new StringBuilder();
XSSFWorkbook workbook = new XSSFWorkbook(file);
try{
for(int numSheets = 0; numSheets < workbook.getNumberOfSheets(); numSheets++){
if (null != workbook.getSheetAt(numSheets)){
XSSFSheet aSheet = workbook.getSheetAt(numSheets);// 获得一个sheet
for(int rowNumOfSheet = 0; rowNumOfSheet <= aSheet.getLastRowNum(); rowNumOfSheet++){
if (null != aSheet.getRow(rowNumOfSheet)){
XSSFRow aRow = aSheet.getRow(rowNumOfSheet); // 获得一个行
for(short cellNumOfRow = 0; cellNumOfRow <= aRow.getLastCellNum(); cellNumOfRow++){
if (null != aRow.getCell(cellNumOfRow)){
XSSFCell aCell = aRow.getCell(cellNumOfRow);// 获得列值
if (this.convertCell(aCell).length() > 0){
content.append(this.convertCell(aCell));
}
}
content.append("\n");
}
}
}
}
}
}catch(Exception e){
content.append("xlsx文件格式不对或损坏");
}
finally{
if(workbook!=null){
workbook.close();
}
}
return content.toString();
} public String readTXT(String file) throws Exception
{
String contents = "";
try{
String encoding = this.get_charset(new File(file));
if (encoding.equalsIgnoreCase("GBK")) {
contents = FileUtils.readFileToString(new File(file), "gbk");
} else {
contents = FileUtils.readFileToString(new File(file), "utf8");
}
}catch(Exception e){
contents = "txt文件格式不对或损坏";
}
return contents;
} public String readDOC(String file) throws Exception
{
String returnStr;
WordExtractor wordExtractor = new WordExtractor(new FileInputStream(new File(file)));
try{
returnStr = wordExtractor.getText();
}catch(Exception e){
returnStr="doc文件格式不对或损坏";
}
finally{
if(wordExtractor != null){
wordExtractor.close();
}
}
return returnStr;
} public String readDOCX(String file) throws Exception
{
String docx;
XWPFWordExtractor xwp= new XWPFWordExtractor(POIXMLDocument.openPackage(file));
try{
docx= xwp.getText();
}catch(Exception e){
docx="docx文件格式不对或损坏";
}
finally{
if(xwp !=null){
xwp.close();
}
}
return docx;
} public String readPDF(String file) throws Exception
{
String result = null;
FileInputStream is = null;
PDDocument document = null;
try{
is = new FileInputStream(file);
document = PDDocument.load(is);
PDFTextStripper stripper = new PDFTextStripper();
result = stripper.getText(document);
}catch(Exception e){
result="pdf文件格式不对或损坏";
}
finally{
if (is != null){
is.close();
}
if (document != null){
document.close();
}
}
return result;
} private String get_charset(File file) throws IOException
{
String charset = "GBK";
byte[] first3Bytes = new byte[3];
BufferedInputStream bis = null;
try {
boolean checked = false;
bis = new BufferedInputStream(new FileInputStream(file));
bis.mark(0);
int read = bis.read(first3Bytes, 0, 3);
if (read == -1)
return charset;
if (first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE) {
charset = "UTF-16LE";
checked = true;
} else if (first3Bytes[0] == (byte) 0xFE&& first3Bytes[1] == (byte) 0xFF) {
charset = "UTF-16BE";
checked = true;
} else if (first3Bytes[0] == (byte) 0xEF&& first3Bytes[1] == (byte) 0xBB&& first3Bytes[2] == (byte) 0xBF) {
charset = "UTF-8";
checked = true;
}
bis.reset();
if (!checked) {
// int len = 0;
int loc = 0;
while ((read = bis.read()) != -1) {
loc=loc+1;
if (read >= 0xF0)
break;
if (0x80 <= read && read <= 0xBF) // 单独出现BF以下的,也算是GBK
break;
if (0xC0 <= read && read <= 0xDF) {
read = bis.read();
if (0x80 <= read && read <= 0xBF) // 双字节 (0xC0 - 0xDF)
// (0x80
// - 0xBF),也可能在GB编码内
continue;
else
break;
} else if (0xE0 <= read && read <= 0xEF) {// 也有可能出错,但是几率较小
read = bis.read();
if (0x80 <= read && read <= 0xBF) {
read = bis.read();
if (0x80 <= read && read <= 0xBF) {
charset = "UTF-8";
break;
} else
break;
} else
break;
}
}
}
} catch (Exception e) {
e.printStackTrace();
} finally {
if (bis != null) {
bis.close();
}
}
return charset;
} @SuppressWarnings("deprecation")
private String convertCell(Cell cell)
{
NumberFormat formater = NumberFormat.getInstance();
formater.setGroupingUsed(false);
String cellValue = "";
if (cell == null) {
return cellValue;
}
switch (cell.getCellTypeEnum()) {
case NUMERIC:
cellValue = formater.format(cell.getNumericCellValue());
break;
case STRING:
cellValue = cell.getStringCellValue();
break;
case BLANK:
cellValue = cell.getStringCellValue();
break;
case BOOLEAN:
cellValue = Boolean.valueOf(cell.getBooleanCellValue()).toString();
break;
case ERROR:
cellValue = String.valueOf(cell.getErrorCellValue());
break;
default:
cellValue = "";
}
return cellValue.trim();
} }
Java读取各种文件格式内容的更多相关文章
- java读取txt文件内容
package read; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; public ...
- Java 读取文件的内容
Java 读取文件的内容 1) CLASS_NAME: 换成自己真实的类名 2) /page/test.json: 换成自己真实的page 3) FileUtils: 来自于org.apache.co ...
- java读取excel文件内容
1.导入依赖JAR包 <!-- jxl 操作excel --> <dependency> <groupId>org.jxls</groupId> < ...
- 实验10—— java读取歌词文件内容动画输出
1.Read.java package cn.tedu.demo; import java.io.BufferedReader; import java.io.File; import java.io ...
- Java 读取Excel 文件内容
在一个项目中,有一个需求,是把excel文件的内容转换为xml格式展示.在学习如何操作的过程中,首先是如何获取excel文件,其中操作的代码如下: 1.首先是导入需要的 jar, 下载地址:https ...
- JAVA读取Excel中内容(HSSF和Workbook两种方法)
内容添加,以前是用的HSSF,前几天帮同学写一个统计表用了Workbook,现在码一下. ---新内容(Workbook)--- 同学要统计一个xls表格,让表1里面的某一列内容对表2里面的每列进行匹 ...
- Java 读取 txt 文件内容到容器 List
方法一: 一.桌面上准备 DataObject.txt 文件,内容为: 二.打开 Eclipse,编写代码如下: import java.io.BufferedReader; import java. ...
- Java读取粘贴板内容
package com.test.jvm.oom.design; import java.awt.Image; import java.awt.Toolkit; import java.awt.dat ...
- 用java读取多种文件格式的文件(pdf,pptx,ppt,doc,docx..)
本文通过开源pdfbox和poi进行处理多种文件格式的文本读入 1.需要的jar的maven坐标: <dependency> <groupId>org.apache.pdfbo ...
随机推荐
- abp架构中加载公共css样式表和公共js的文件目录位置
src\shared\helpers\LocalizedResourcesHelper.ts
- Luogu P2480 [SDOI2010]古代猪文 卢卡斯+组合+CRT
好吧刚开始以为扩展卢卡斯然后就往上套..结果奇奇怪怪又WA又T...后来才意识到它的因子都是质数...qwq怕不是这就是学知识学傻了.. 题意:$ G^{\Sigma_{d|n} \space C_n ...
- Django - 回顾(1)- 模型层的Meta选项详解
一.模型层的Meta选项详解 Django模型类的Meta是一个内部类,它用于定义一些Django模型类的行为特性.使用方法及参数解释如下: class Book(models.Model): nid ...
- Linux--2 Linux之文档与目录结构、shell基本命令
一.Linux之文档与目录结构 1.Linux之文档与目录结构 Linux目录结构的组织形式和Windows有很大的不同.Linux没有“盘(如C盘.D盘.E盘)”的概念,而是建立一个根"/ ...
- 关于js框架 dwz 与 yii的的分页 以及筛选的结合
此为jicheng1014 原创....地址为http://jicheng1014.cnblogs.com dwz是一个不错的前端框架 但是 注意 所有的后端 都是要自己写的 常见的应用是 ...
- IE浏览器与非IE浏览器JS日期兼容性问题处理
执行语句 console.log(new Date("2017-07-04 18:40").getTime()); 在IE浏览器中打印出:NAN 在非IE浏览器中打印出:14991 ...
- 1269 匈牙利游戏 2012年CCC加拿大高中生信息学奥赛
1269 匈牙利游戏 2012年CCC加拿大高中生信息学奥赛 时间限制: 1 s 空间限制: 128000 KB 题目等级 : 钻石 Diamond 题目描述 Description ...
- testNG测试基础一
1.TestNG概念 TestNG:Testing Next Generation 下一代测试技术,是一套根据JUnit和Nunit思想构建的利用注释来强化测试功能的测试框架,可用来做单元测试,也可用 ...
- uvm_reg_adapter——寄存器模型(十八)
uvm_reg_adapter 功能就是在uvm_reg_bus_op和总线操作之间的转换.主要包含两个函数reg2bus 和bus2reg. //-------------------------- ...
- 网页编辑器CKEditor4.3.1+CKFinder2.4+JW Player6.7(视频播放器)集成
CKEditor是使用最多的一款在线网页编辑器,不仅好用,而且功能强大.易扩展.浏览器兼容性好.另外,CKEditor网页编辑器经常更新.本程序使用的是最新稳定版CKEditor4.3.1,添加使用了 ...