完成office文件操作可以帮助apache.poi包(我用poi-3.10-FINAL),导入对应的jar包(最好所有导入)

以下的程序演示了一些操作word的过程,具体的函数功能能够查看此包的官方API

import java.io.*;
import org.apache.poi.POIXMLDocument;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.*;
import org.apache.poi.hwpf.usermodel.Range;
//xwpf专门加强处理Word2007 .docx 格式
import org.apache.poi.xwpf.usermodel.XWPFDocument; public class WordReader { WordExtractor wordExtractor; public static void main(String[] args) {
System.out.println("该word文档(docx格式)总页数例如以下:");
new WordReader().getPageCount("F:\\数据挖掘及其应用论文格式.docx"); System.out.println("\n获取整个word文本内容:");
System.out.println(new WordReader().getTextFromWord("F:\\word2003.doc")); System.out.println("按段获取文本内容:");
System.out.println(new WordReader().getTextByParagraph("F:\\word2003.doc"));
} // 统计word文件总页数(仅docx格式的有效!) doc格式也有对应的方法,可是因为doc本身的问题,导致获取的页数总是错误的。
public void getPageCount(String filePath) {
XWPFDocument docx;
try {
docx = new XWPFDocument(POIXMLDocument.openPackage(filePath));
int pages = docx.getProperties().getExtendedProperties()
.getUnderlyingProperties().getPages();// 总页数
int wordCount = docx.getProperties().getExtendedProperties()
.getUnderlyingProperties().getCharacters();// 忽略空格的总字符数
// 另外还有getCharactersWithSpaces()方法获取带空格的总字数。
System.out.println("Total pages=" + pages +"页; "+ " Total wordCount=" + wordCount);
} catch (IOException e) {
e.printStackTrace();
}
} // 获取word文档中全部文本的方法(仅对doc文件有效)
public String getTextFromWord(String filePath) {
String res = null;
File file = new File(filePath);
try {
FileInputStream fis = new FileInputStream(file);
wordExtractor = new WordExtractor(fis);
// 获取全部文本
res = wordExtractor.getText();
fis.close();
} catch (IOException e) {
e.printStackTrace();
}
return res;
} // 按段获取文本(仅对doc文件有效)
public String getTextByParagraph(String filePath) {
String res = null;
FileInputStream fis;
try {
fis = new FileInputStream(filePath);
wordExtractor = new WordExtractor(fis);
// 获取段文本
String[] strArray = wordExtractor.getParagraphText();
for (int i = 0; i < strArray.length; i++) {
System.out.println("第 " + (i+1)+" 段\n"+strArray[i]);
} // 这个构造函数从InputStream中载入Word文档
HWPFDocument doc = new HWPFDocument(
(InputStream) new FileInputStream(filePath));
// 这个类为HWPF对象模型,对文档范围段操作
Range range = doc.getRange();
int num = range.numParagraphs();
System.out.println("该文档共" + num + "段");//空行也算一段
System.out.println("获取第"+num+"段内容例如以下:\n"+range.getParagraph(num-1).text());
fis.close(); } catch (IOException e) {
e.printStackTrace();
}
return res;
}
}

版权声明:本文博客原创文章,博客,未经同意,不得转载。

Java阅读word程序说明文件的更多相关文章

  1. 利用aspose-words 实现 java中word转pdf文件

    利用aspose-words  实现 java中word转pdf文件 首先下载aspose-words-15.8.0-jdk16.jar包 引入jar包,编写Java代码 package test; ...

  2. 实现在线阅读WORD,PDF等文件,JAVA,PHP都可以

    1 <?php 2 //header("Content-type:text/html;charset=utf-8"); 3 //word转html 展示 4 $lj=$_GE ...

  3. java 调用本地应用程序 Java打开(.word,.txt,.pdf)文件

    https://blog.csdn.net/lebron3v/article/details/80741000

  4. java实现word转pdf文件(高效不失真)

    import java.io.File; import java.io.FileOutputStream; import java.io.InputStream; import org.aspectj ...

  5. [Java] Java读取Word文档

    前言 最近需要做一些NLP 方面的工作,使用的是Java,在此总结一下使用Java读取Word(.doc)格式文件的方法. Apache基金会非常厉害,开源工具包POI就可以处理微软家的文档,甚至包括 ...

  6. java操作office和pdf文件java读取word,excel和pdf文档内容

    在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中.所以今天我们就简单来看一下Java对word.excel.pdf文件的读取.本篇博客只是讲解简单应 ...

  7. java使用poi读取ppt文件和poi读取excel、word示例

    java使用poi读取ppt文件和poi读取excel.word示例 http://www.jb51.net/article/48092.htm

  8. java导出word文件

    java导出word文件 test5.ftl文件生存方法, 第一步:用word新建test5.doc,填写完整模板,将需导出数据用${}代替 第二步:将test5.doc另存为test5.xml 第三 ...

  9. JAVA 基础编程练习题50 【程序 50 文件 IO】

    50 [程序 50 文件 IO] 题目:有五个学生,每个学生有 3 门课的成绩,从键盘输入以上数据(包括学生号,姓名,三门课成绩), 计算出平均成绩,将原有的数据和计算出的平均分数存放在磁盘文件&qu ...

随机推荐

  1. [译]MVC应用程序生命周期

    原文:MVC Application Lifecycle 来一探究竟在MVC应用程序中参与请求处理的各个不同组件. 目录: 序言 背景 UrlRoutingModule RouteHandler Mv ...

  2. yii组态 redis主从配置(随着代码)

    最近的欲望redis 主从,但yii内建的redis 它不支持主从.不仅写了一个好办法 结构例,以下: 1.main.php通过添加下面的句子: //redis缓存配置 'cache_redis' = ...

  3. 修改Hosts不生效的一个场景-web(转)

    Update: 如果浏览器使用了代理工具,修改 Hosts 也不会生效.这里是因为,浏览器会优先考虑代理工具(如添加 pac 文件.SwitchySharp等)的代理,建议调试的时候先关闭这些代理. ...

  4. c#左右socket连接超时控制方案

    之前有一个项目中使用Remoting技术.当远程地址无效或server不执行,访问远程对象的方法,它会经过几十秒的时间来抛出异常秒. 由于我使用tcp状态.因此,认为可以使用socket为了测试连接, ...

  5. 采用shell脚本统计代码的行数

    刚毕业那会儿有一次去台湾公司面试,我问多行代码怎么写.我从来没有想过这个问题,粗略计算,.惊叹:大概几十万行不行. 最近整理资料,看着eclipse左边全面上市,我觉得这个东西.代码共同拥有的行倒底总 ...

  6. Javascript设计模式与开发实践读书笔记(1-3章)

    第一章 面向对象的Javascript 1.1 多态在面向对象设计中的应用   多态最根本好处在于,你不必询问对象“你是什么类型”而后根据得到的答案调用对象的某个行为--你只管调用行为就好,剩下的一切 ...

  7. 离robots.txt启动网络爬虫之旅

    要成为一个网络爬虫或搜索引擎(在这里,共同蜘蛛)它不会陌生,在搜索引擎爬虫的第一个文件或者访问该网站上浏览robots.txt该.robots.txt文件讲述了蜘蛛server哪些文件要观看正在. 当 ...

  8. log4j+logback+slf4j+commons-logging的关系与调试(转)

    背景     由于现在开源框架日益丰富,好多开源框架使用的日志组件不尽相同.存在着在一个项目中,不同的版本,不同的框架共存.导致日志输出异常混乱.虽然也不至于对系统造成致命伤害,但是明显可以看出,架构 ...

  9. 第四章:Django 的模板系统(转)

    在之前的章节中,你可能觉得例子中视图返回文本有点不妥.即是, HTML 是直接写在 Python 代码中的.     这种做法会导致这些问题:     要做任何设计上的更改就必须改写 Python 代 ...

  10. NYNU_省赛选拔题(6)

    题目描述 有一天,小米找到了一个藏宝的迷宫地图,迷宫在一个沙漠里有,迷宫里面有许多宝藏.迷宫里可能有N个藏宝地点,用1到K标记.藏宝地点之间最多有一条通路相连.标记1为迷宫的进出口. 他已经知道其中K ...