在Android读取Word文件时,在网上查看时可以用tm-extractors,但好像没有提到怎么读取Word文档中字体的颜色,字体,上下标等相关的属性。但由于需要,要把doc文档中的内容(字体,下划线,颜色等)读取应用到android中(不包括图片和图表)。

后面采用的是poi三方jar包(原包太大,可以从源代码里自己抽取有用的一些代码减少包的大小)。

我的想法是:把doc中的内容解析出来后,加上html对应的标签,在android中通过Html.fromHtml在TextView中进行显示,或者通过WebView.loadData进行加载显示

但测试后,发现如果加载太多内容的话,在Android中效率不行。

效果(该图的效果是在TextView中的效果,在WebView中效果会更好些):

doc图:

android图:

做法1:(解析为span样式的,这种做法只能用WebView方式加载,Html.fromHtml无效)

  1. /**Span样式
  2. * 通过字体的样式进行加载
  3. * @param inputStream
  4. * @return
  5. */
  6. public static String readDocToSpanByRun(InputStream inputStream) {
  7. HWPFDocument hwpfDocument = null;
  8. if(inputStream == null)
  9. throw new RuntimeException("inputStream is null ...");
  10. try{
  11. hwpfDocument = new HWPFDocument(inputStream);
  12. }catch(Exception e) {
  13. throw new RuntimeException("HWPFDocment Exception", e);
  14. }
  15. Range allRange = hwpfDocument.getRange();
  16. int length = allRange.numCharacterRuns();
  17. StringBuffer sb = new StringBuffer();
  18. CharacterRun cur;
  19. String text = "";
  20. for (int i = 0; i < length; i++) {
  21. cur = allRange.getCharacterRun(i);
  22. sb.append(CharacterRunUtils.toSpanType(cur));
  23. text = CharacterRunUtils.getSpicalSysbomByRun(cur.text());
  24. if(cur.getSubSuperScriptIndex() == 1)
  25. sb.append("<sup>").append(text).append("</sup>");
  26. else if(cur.getSubSuperScriptIndex() == 2)
  27. sb.append("<sub>").append(text).append("</sub>");
  28. else
  29. sb.append(text);
  30. sb.append("</span>");
  31. }
  32. return sb.toString();
  33. }

做法2:(解析为font样式的,Html.fromHtml有效,但对应size的设置无效果)

  1. /**
  2. * Html样式
  3. * 通过字体样式解析
  4. * @param inputStream
  5. * @return
  6. */
  7. public static String readDocToHtml(InputStream inputStream) {
  8. HWPFDocument hwpfDocument = null;
  9. if(inputStream == null)
  10. throw new RuntimeException("inputStream is null ...");
  11. try{
  12. hwpfDocument = new HWPFDocument(inputStream);
  13. }catch(Exception e) {
  14. throw new RuntimeException("HWPFDocment Exception", e);
  15. }
  16. CharacterRun  cur = null;
  17. StringBuffer sb = new StringBuffer();
  18. StringBuffer charStr =  new StringBuffer();
  19. Range allRange = hwpfDocument.getRange();
  20. for(int i = 0; i < allRange.numCharacterRuns(); i++) {
  21. cur = allRange.getCharacterRun(i);
  22. sb.append(CharacterRunUtils.fontFaceColorSizeToHtml(cur));
  23. charStr.append(CharacterRunUtils.toSupOrSub(cur, CharacterRunUtils.getSpicalSysbomByRun(cur.text())));
  24. if(cur.isBold())  {
  25. charStr.insert(0, "<b>");
  26. charStr.insert(charStr.length(), "</b>");
  27. }
  28. if(cur.getUnderlineCode() != 0) {
  29. charStr.insert(0, "<u>");
  30. charStr.insert(charStr.length(), "</u>");
  31. }
  32. if(cur.isItalic()) {
  33. charStr.insert(0, "<i>");
  34. charStr.insert(charStr.length(), "</i>");
  35. }
  36. if(cur.isStrikeThrough()) {
  37. charStr.insert(0, "<s>");
  38. charStr.insert(charStr.length(), "</s>");
  39. }
  40. sb.append(charStr).append("</font>");
  41. charStr.setLength(0);
  42. }
  43. hwpfDocument = null;
  44. return sb.toString();
  45. }

 以下是会用到的方法:

  1. /**
  2. *处理字体相关的属性
  3. */
  4. public class CharacterRunUtils {
  5. private static final short ENTER_ASCII = 13;
  6. private static final short SPACE_ASCII = 32;
  7. private static final short TABULATION_ASCII = 9;
  8. /**
  9. * 比对字体是否相同
  10. * 可以继续加其它属性
  11. * @param cr1
  12. * @param cr2
  13. * @return
  14. */
  15. public static boolean compareCharStyleForSpan(CharacterRun cr1,
  16. CharacterRun cr2) {
  17. return cr1.isBold() == cr2.isBold()
  18. && cr1.getFontName().equals(cr2.getFontName())
  19. && cr1.getFontSize() == cr2.getFontSize()
  20. && cr1.isItalic() == cr2.isItalic()
  21. && cr1.getColor() == cr2.getColor()
  22. && cr1.getUnderlineCode() == cr2.getUnderlineCode()
  23. && cr1.isStrikeThrough() == cr2.isStrikeThrough()
  24. && cr1.getColor() == cr2.getColor();
  25. }
  26. public static boolean compareCharColor(CharacterRun cr1, CharacterRun cr2) {
  27. return cr1.getFontName().equals(cr2.getFontName())
  28. && cr1.getFontSize() == cr2.getFontSize()
  29. && cr1.getColor() == cr2.getColor();
  30. }
  31. public static String getSpicalSysbom(char currentChar) {
  32. String tempStr = "";
  33. if (currentChar == ENTER_ASCII) {
  34. tempStr += "<br/>";
  35. } else if (currentChar == SPACE_ASCII) {
  36. tempStr += "&nbsp;";
  37. } else if (currentChar == TABULATION_ASCII) {
  38. tempStr += "&nbsp;&nbsp;&nbsp;";
  39. } else {
  40. tempStr += currentChar;
  41. }
  42. return tempStr;
  43. }
  44. public static String getSpicalSysbomSpan(char currentChar) {
  45. String tempStr = "";
  46. if (currentChar == ENTER_ASCII) {
  47. tempStr += "<br/>";
  48. } else if (currentChar == SPACE_ASCII) {
  49. tempStr += "&nbsp;";
  50. } else if (currentChar == TABULATION_ASCII) {
  51. tempStr += "&nbsp;&nbsp;&nbsp;";
  52. }
  53. return tempStr;
  54. }
  55. /**
  56. * 特殊字符的取代
  57. * @param currentChar
  58. * @return
  59. */
  60. public static String getSpicalSysbomByRun(String currentChar) {
  61. StringBuffer tempStr = new StringBuffer();
  62. int length = currentChar.length();
  63. for (int i = 0; i < length; i++) {
  64. tempStr.append(getSpicalSysbom(currentChar.charAt(i)));
  65. }
  66. return tempStr.toString();
  67. }
  68. /**
  69. * span方式前缀
  70. * @param cr
  71. * @return
  72. */
  73. public static String toSpanType(CharacterRun cr) {
  74. StringBuffer spanStyle = new StringBuffer("<span style='font-family:");
  75. spanStyle.append(cr.getFontName()).append("; font-size:")
  76. .append(cr.getFontSize() / 2).append("pt;");
  77. if (cr.isBold())
  78. spanStyle.append("font-weight:bold;");
  79. if (cr.isItalic())
  80. spanStyle.append("font-style:italic;");
  81. if (cr.isStrikeThrough())
  82. spanStyle.append("text-decoration:line-through;");
  83. if (cr.getUnderlineCode() != 0)
  84. spanStyle.append("text-decoration:underline;");
  85. spanStyle.append("color:")
  86. .append(ColorUtils.getHexColor(cr.getIco24())).append(";")
  87. .append("'>");
  88. return spanStyle.toString();
  89. }
  90. /**
  91. * 为font方式提供<font前缀
  92. * @param cr
  93. * @return
  94. */
  95. public static String fontFaceColorSizeToHtml(CharacterRun cr) {
  96. StringBuffer htmlType = new StringBuffer("<font ");
  97. htmlType.append("size='").append(cr.getFontSize() / 2).append("' ")
  98. .append("face='").append(cr.getFontName()).append("' ")
  99. .append("color='")
  100. .append(ColorUtils.getHexColor(cr.getIco24())).append("'>");
  101. return htmlType.toString();
  102. }
  103. /**
  104. * 处理上下标
  105. * @param cr
  106. * @param currentChar
  107. * @return
  108. */
  109. public static String toSupOrSub(CharacterRun cr, String currentChar) {
  110. int sub = cr.getSubSuperScriptIndex();
  111. if (sub != 0) {
  112. if (sub == 1)
  113. // 上标
  114. return "<sup>" + currentChar + "</sup>";
  115. else
  116. // 下标
  117. return "<sub>" + currentChar + "</sub>";
  118. } else
  119. return currentChar;
  120. }
  121. public static String toSupOrSub(CharacterRun cr, char currentChar) {
  122. return toSupOrSub(cr, new String(new char[]{currentChar}));
  123. }
  124. }

用到的颜色的转换(进行简单的颜色转换)

  1. public class ColorUtils {
  2. public static int  red(int c) {
  3. return c & 0XFF;
  4. }
  5. public static int green(int c) {
  6. return (c >> 8) & 0XFF;
  7. }
  8. public static int blue(int c) {
  9. return (c >> 16) & 0XFF;
  10. }
  11. public static int rgb(int c) {
  12. return (red(c) << 16) | (green(c) <<8) | blue(c);
  13. }
  14. public static String rgbToSix(String rgb) {
  15. int length = 6 - rgb.length();
  16. String str = "";
  17. while(length > 0){
  18. str += "0";
  19. length--;
  20. }
  21. return str + rgb;
  22. }
  23. public static String getHexColor(int color) {
  24. color = color == -1 ? 0 : color;
  25. int rgb = rgb(color);
  26. return "#" + rgbToSix(Integer.toHexString(rgb));
  27. }
  28. }

Java读取word文件,字体,颜色的更多相关文章

  1. java操作office和pdf文件java读取word,excel和pdf文档内容

    在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中.所以今天我们就简单来看一下Java对word.excel.pdf文件的读取.本篇博客只是讲解简单应 ...

  2. Java POI 读取word文件

    Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能. 1.读取word 2003及word 2007需要 ...

  3. [Java] Java读取Word文档

    前言 最近需要做一些NLP 方面的工作,使用的是Java,在此总结一下使用Java读取Word(.doc)格式文件的方法. Apache基金会非常厉害,开源工具包POI就可以处理微软家的文档,甚至包括 ...

  4. java 读取word

    读取word文件 import java.io.File; import java.io.FileInputStream; import java.io.InputStream; import org ...

  5. java分享第十六天( java读取properties文件的几种方法&java配置文件持久化:static块的作用)

     java读取properties文件的几种方法一.项目中经常会需要读取配置文件(properties文件),因此读取方法总结如下: 1.通过java.util.Properties读取Propert ...

  6. Java读取Excel文件的几种方法

    Java读取 Excel 文件的常用开源免费方法有以下几种: 1. JDBC-ODBC Excel Driver 2. jxl.jar 3. jcom.jar 4. poi.jar 简单介绍: 百度文 ...

  7. Java读取txt文件

    package com.loongtao.general.crawler.slave.utils; import java.io.BufferedReader; import java.io.File ...

  8. java 读取XML文件作为配置文件

    首先,贴上自己的实例: XML文件:NewFile.xml(该文件与src目录同级) <?xml version="1.0" encoding="UTF-8&quo ...

  9. java 读取TXT文件的方法

    java读取txt文件内容.可以作如下理解: 首先获得一个文件句柄.File file = new File(); file即为文件句柄.两人之间连通电话网络了.接下来可以开始打电话了. 通过这条线路 ...

随机推荐

  1. codevs 3110 二叉堆练习3

    3110 二叉堆练习3 http://codevs.cn/problem/3110/ 题目描述 Description 给定N(N≤500,000)和N个整数(较有序),将其排序后输出. 输入描述 I ...

  2. [LeetCode] Binary Tree Level Order Traversal 二叉树层序遍历

    Given a binary tree, return the level order traversal of its nodes' values. (ie, from left to right, ...

  3. webBrowser1

    HTMLDocument类的引用 using mshtml;

  4. CentOS安装Maven

    现有的一个项目使用了Maven来管理,源代码放到了Subversion中.虽然Maven管理项目很方便,但是部署起来还是很麻烦的.先要在本地生成项目jar包,上传到服务器,然后再重启服务.如果在服务器 ...

  5. framebuffer line_length 參數

    以下是在 trace 關機充電動畫所遇到一個疑惑, 關於 framebuffer device 的屬性 line_length 大小值, 一個 display panel,1920 × 1080, 每 ...

  6. ceph hadoop spark 大数据处理

    http://docs.ceph.com/docs/giant/cephfs/hadoop/ https://indico.cern.ch/event/524549/contributions/218 ...

  7. 第一章 MYSQL的架构和历史

    在读第一章的过程中,整理出来了一些重要的概念. 锁粒度  表锁(服务器实现,忽略存储引擎). 行锁(存储引擎实现,服务器没有实现). 事务的ACID概念 原子性(要么全部成功,要么全部回滚). 一致性 ...

  8. Git中如何利用生成SSH个人公钥访问git仓库

    Git中如何利用生成SSH个人公钥访问git仓库方法(这里以coding平台为例): 1. 获取 SSH 协议地址 在项目的代码页面点击 SSH 切换到 SSH 协议, 获得访问地址, 请使用这个地址 ...

  9. 贝赛尔曲线UIBezierPath(后续)

    使用CAShapeLayer与UIBezierPath可以实现不在view的drawRect方法中就画出一些想要的图形 . 1:UIBezierPath: UIBezierPath是在 UIKit 中 ...

  10. AnjularJS系列4 —— 单个页面加载多个ng-App

    第四篇,插播, 单个页面加载多个ng-App 在写范例的时候发现的问题 一个页面有多个ng-app,angular只会处理第一个ng-app 需要加载两个ng-app,需要进行手动加载: angula ...