在Android读取Word文件时,在网上查看时可以用tm-extractors,但好像没有提到怎么读取Word文档中字体的颜色,字体,上下标等相关的属性。但由于需要,要把doc文档中的内容(字体,下划线,颜色等)读取应用到android中(不包括图片和图表)。

后面采用的是poi三方jar包(原包太大,可以从源代码里自己抽取有用的一些代码减少包的大小)。

我的想法是:把doc中的内容解析出来后,加上html对应的标签,在android中通过Html.fromHtml在TextView中进行显示,或者通过WebView.loadData进行加载显示

但测试后,发现如果加载太多内容的话,在Android中效率不行。

效果(该图的效果是在TextView中的效果,在WebView中效果会更好些):

doc图:

android图:

做法1:(解析为span样式的,这种做法只能用WebView方式加载,Html.fromHtml无效)

  1. /**Span样式
  2. * 通过字体的样式进行加载
  3. * @param inputStream
  4. * @return
  5. */
  6. public static String readDocToSpanByRun(InputStream inputStream) {
  7. HWPFDocument hwpfDocument = null;
  8. if(inputStream == null)
  9. throw new RuntimeException("inputStream is null ...");
  10. try{
  11. hwpfDocument = new HWPFDocument(inputStream);
  12. }catch(Exception e) {
  13. throw new RuntimeException("HWPFDocment Exception", e);
  14. }
  15. Range allRange = hwpfDocument.getRange();
  16. int length = allRange.numCharacterRuns();
  17. StringBuffer sb = new StringBuffer();
  18. CharacterRun cur;
  19. String text = "";
  20. for (int i = 0; i < length; i++) {
  21. cur = allRange.getCharacterRun(i);
  22. sb.append(CharacterRunUtils.toSpanType(cur));
  23. text = CharacterRunUtils.getSpicalSysbomByRun(cur.text());
  24. if(cur.getSubSuperScriptIndex() == 1)
  25. sb.append("<sup>").append(text).append("</sup>");
  26. else if(cur.getSubSuperScriptIndex() == 2)
  27. sb.append("<sub>").append(text).append("</sub>");
  28. else
  29. sb.append(text);
  30. sb.append("</span>");
  31. }
  32. return sb.toString();
  33. }

做法2:(解析为font样式的,Html.fromHtml有效,但对应size的设置无效果)

  1. /**
  2. * Html样式
  3. * 通过字体样式解析
  4. * @param inputStream
  5. * @return
  6. */
  7. public static String readDocToHtml(InputStream inputStream) {
  8. HWPFDocument hwpfDocument = null;
  9. if(inputStream == null)
  10. throw new RuntimeException("inputStream is null ...");
  11. try{
  12. hwpfDocument = new HWPFDocument(inputStream);
  13. }catch(Exception e) {
  14. throw new RuntimeException("HWPFDocment Exception", e);
  15. }
  16. CharacterRun  cur = null;
  17. StringBuffer sb = new StringBuffer();
  18. StringBuffer charStr =  new StringBuffer();
  19. Range allRange = hwpfDocument.getRange();
  20. for(int i = 0; i < allRange.numCharacterRuns(); i++) {
  21. cur = allRange.getCharacterRun(i);
  22. sb.append(CharacterRunUtils.fontFaceColorSizeToHtml(cur));
  23. charStr.append(CharacterRunUtils.toSupOrSub(cur, CharacterRunUtils.getSpicalSysbomByRun(cur.text())));
  24. if(cur.isBold())  {
  25. charStr.insert(0, "<b>");
  26. charStr.insert(charStr.length(), "</b>");
  27. }
  28. if(cur.getUnderlineCode() != 0) {
  29. charStr.insert(0, "<u>");
  30. charStr.insert(charStr.length(), "</u>");
  31. }
  32. if(cur.isItalic()) {
  33. charStr.insert(0, "<i>");
  34. charStr.insert(charStr.length(), "</i>");
  35. }
  36. if(cur.isStrikeThrough()) {
  37. charStr.insert(0, "<s>");
  38. charStr.insert(charStr.length(), "</s>");
  39. }
  40. sb.append(charStr).append("</font>");
  41. charStr.setLength(0);
  42. }
  43. hwpfDocument = null;
  44. return sb.toString();
  45. }

 以下是会用到的方法:

  1. /**
  2. *处理字体相关的属性
  3. */
  4. public class CharacterRunUtils {
  5. private static final short ENTER_ASCII = 13;
  6. private static final short SPACE_ASCII = 32;
  7. private static final short TABULATION_ASCII = 9;
  8. /**
  9. * 比对字体是否相同
  10. * 可以继续加其它属性
  11. * @param cr1
  12. * @param cr2
  13. * @return
  14. */
  15. public static boolean compareCharStyleForSpan(CharacterRun cr1,
  16. CharacterRun cr2) {
  17. return cr1.isBold() == cr2.isBold()
  18. && cr1.getFontName().equals(cr2.getFontName())
  19. && cr1.getFontSize() == cr2.getFontSize()
  20. && cr1.isItalic() == cr2.isItalic()
  21. && cr1.getColor() == cr2.getColor()
  22. && cr1.getUnderlineCode() == cr2.getUnderlineCode()
  23. && cr1.isStrikeThrough() == cr2.isStrikeThrough()
  24. && cr1.getColor() == cr2.getColor();
  25. }
  26. public static boolean compareCharColor(CharacterRun cr1, CharacterRun cr2) {
  27. return cr1.getFontName().equals(cr2.getFontName())
  28. && cr1.getFontSize() == cr2.getFontSize()
  29. && cr1.getColor() == cr2.getColor();
  30. }
  31. public static String getSpicalSysbom(char currentChar) {
  32. String tempStr = "";
  33. if (currentChar == ENTER_ASCII) {
  34. tempStr += "<br/>";
  35. } else if (currentChar == SPACE_ASCII) {
  36. tempStr += "&nbsp;";
  37. } else if (currentChar == TABULATION_ASCII) {
  38. tempStr += "&nbsp;&nbsp;&nbsp;";
  39. } else {
  40. tempStr += currentChar;
  41. }
  42. return tempStr;
  43. }
  44. public static String getSpicalSysbomSpan(char currentChar) {
  45. String tempStr = "";
  46. if (currentChar == ENTER_ASCII) {
  47. tempStr += "<br/>";
  48. } else if (currentChar == SPACE_ASCII) {
  49. tempStr += "&nbsp;";
  50. } else if (currentChar == TABULATION_ASCII) {
  51. tempStr += "&nbsp;&nbsp;&nbsp;";
  52. }
  53. return tempStr;
  54. }
  55. /**
  56. * 特殊字符的取代
  57. * @param currentChar
  58. * @return
  59. */
  60. public static String getSpicalSysbomByRun(String currentChar) {
  61. StringBuffer tempStr = new StringBuffer();
  62. int length = currentChar.length();
  63. for (int i = 0; i < length; i++) {
  64. tempStr.append(getSpicalSysbom(currentChar.charAt(i)));
  65. }
  66. return tempStr.toString();
  67. }
  68. /**
  69. * span方式前缀
  70. * @param cr
  71. * @return
  72. */
  73. public static String toSpanType(CharacterRun cr) {
  74. StringBuffer spanStyle = new StringBuffer("<span style='font-family:");
  75. spanStyle.append(cr.getFontName()).append("; font-size:")
  76. .append(cr.getFontSize() / 2).append("pt;");
  77. if (cr.isBold())
  78. spanStyle.append("font-weight:bold;");
  79. if (cr.isItalic())
  80. spanStyle.append("font-style:italic;");
  81. if (cr.isStrikeThrough())
  82. spanStyle.append("text-decoration:line-through;");
  83. if (cr.getUnderlineCode() != 0)
  84. spanStyle.append("text-decoration:underline;");
  85. spanStyle.append("color:")
  86. .append(ColorUtils.getHexColor(cr.getIco24())).append(";")
  87. .append("'>");
  88. return spanStyle.toString();
  89. }
  90. /**
  91. * 为font方式提供<font前缀
  92. * @param cr
  93. * @return
  94. */
  95. public static String fontFaceColorSizeToHtml(CharacterRun cr) {
  96. StringBuffer htmlType = new StringBuffer("<font ");
  97. htmlType.append("size='").append(cr.getFontSize() / 2).append("' ")
  98. .append("face='").append(cr.getFontName()).append("' ")
  99. .append("color='")
  100. .append(ColorUtils.getHexColor(cr.getIco24())).append("'>");
  101. return htmlType.toString();
  102. }
  103. /**
  104. * 处理上下标
  105. * @param cr
  106. * @param currentChar
  107. * @return
  108. */
  109. public static String toSupOrSub(CharacterRun cr, String currentChar) {
  110. int sub = cr.getSubSuperScriptIndex();
  111. if (sub != 0) {
  112. if (sub == 1)
  113. // 上标
  114. return "<sup>" + currentChar + "</sup>";
  115. else
  116. // 下标
  117. return "<sub>" + currentChar + "</sub>";
  118. } else
  119. return currentChar;
  120. }
  121. public static String toSupOrSub(CharacterRun cr, char currentChar) {
  122. return toSupOrSub(cr, new String(new char[]{currentChar}));
  123. }
  124. }

用到的颜色的转换(进行简单的颜色转换)

  1. public class ColorUtils {
  2. public static int  red(int c) {
  3. return c & 0XFF;
  4. }
  5. public static int green(int c) {
  6. return (c >> 8) & 0XFF;
  7. }
  8. public static int blue(int c) {
  9. return (c >> 16) & 0XFF;
  10. }
  11. public static int rgb(int c) {
  12. return (red(c) << 16) | (green(c) <<8) | blue(c);
  13. }
  14. public static String rgbToSix(String rgb) {
  15. int length = 6 - rgb.length();
  16. String str = "";
  17. while(length > 0){
  18. str += "0";
  19. length--;
  20. }
  21. return str + rgb;
  22. }
  23. public static String getHexColor(int color) {
  24. color = color == -1 ? 0 : color;
  25. int rgb = rgb(color);
  26. return "#" + rgbToSix(Integer.toHexString(rgb));
  27. }
  28. }

Java读取word文件,字体,颜色的更多相关文章

  1. java操作office和pdf文件java读取word,excel和pdf文档内容

    在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中.所以今天我们就简单来看一下Java对word.excel.pdf文件的读取.本篇博客只是讲解简单应 ...

  2. Java POI 读取word文件

    Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能. 1.读取word 2003及word 2007需要 ...

  3. [Java] Java读取Word文档

    前言 最近需要做一些NLP 方面的工作,使用的是Java,在此总结一下使用Java读取Word(.doc)格式文件的方法. Apache基金会非常厉害,开源工具包POI就可以处理微软家的文档,甚至包括 ...

  4. java 读取word

    读取word文件 import java.io.File; import java.io.FileInputStream; import java.io.InputStream; import org ...

  5. java分享第十六天( java读取properties文件的几种方法&java配置文件持久化:static块的作用)

     java读取properties文件的几种方法一.项目中经常会需要读取配置文件(properties文件),因此读取方法总结如下: 1.通过java.util.Properties读取Propert ...

  6. Java读取Excel文件的几种方法

    Java读取 Excel 文件的常用开源免费方法有以下几种: 1. JDBC-ODBC Excel Driver 2. jxl.jar 3. jcom.jar 4. poi.jar 简单介绍: 百度文 ...

  7. Java读取txt文件

    package com.loongtao.general.crawler.slave.utils; import java.io.BufferedReader; import java.io.File ...

  8. java 读取XML文件作为配置文件

    首先,贴上自己的实例: XML文件:NewFile.xml(该文件与src目录同级) <?xml version="1.0" encoding="UTF-8&quo ...

  9. java 读取TXT文件的方法

    java读取txt文件内容.可以作如下理解: 首先获得一个文件句柄.File file = new File(); file即为文件句柄.两人之间连通电话网络了.接下来可以开始打电话了. 通过这条线路 ...

随机推荐

  1. [LeetCode] Find the Duplicate Number 寻找重复数

    Given an array nums containing n + 1 integers where each integer is between 1 and n (inclusive), pro ...

  2. Tomcat基于虚拟路径的发布和web.xml配置

    <Connector port="8888" protocol="HTTP/1.1" connectionTimeout="20000" ...

  3. wm_concat

    select to_char(wm_concat(ssss)) from (select replace(C_CELL_CONTENT ,'=$','') ssss ,rownum ss from ( ...

  4. 在mysql 查询语句中将时间戳格式转化为年月日格式

    SELECT  FROM_UNIXTIME('时间戳的字段名称', '%Y-%m-%d %H:%i:%s')   FROM `表名` http://www.cnblogs.com/tdalcn/arc ...

  5. python gettitle v2.0

    #!/usr/bin/env python # coding=utf-8 import threading import requests import Queue import sys import ...

  6. 关于 feature team 的一些内容

    矩阵式管理,是常见的经典管理架构.其最早起源于美国的航空航天部门,然后被美国人带到了日本,然后被日本人带到了台湾,然后台湾人带到大陆...矩阵管理最典型的特征是,组织架构按职能与专业划分,项目由跨越部 ...

  7. HTML之CSS学习

    学前预备 <!DOCTYPE html> <html> <head> <title>标题</title> <meta charset= ...

  8. 怎么把电脑的word,txt,pdf等文件拷贝到iPhone手机上

    之前都是用的qq什么的传文件,电脑发送到qq上.今天尝试了一下用itunes把电脑上的文件夹弄到iPhone上. 1.首先,打开电脑的偏好设置,找到共享如图: 打开它,勾选文件共享. 2.把手机和电脑 ...

  9. .NET开发人员值得关注的七个开源项目 .

    NET开发人员值得关注的七个开源项目 软近几年在.NET社区开源项目方面投入了相当多的时间和资源,不禁让原本对峙的开源社区阵营大吃一惊,从微软.NET社区中的反应来看,微软.NET开发阵营对开源工具的 ...

  10. 【原创】JEECMS v6~v7任意文件上传漏洞(1)

    文章作者:rebeyond 受影响版本:v6~v7 漏洞说明: JEECMS是国内Java版开源网站内容管理系统(java cms.jsp cms)的简称.该系统基于java技术开发,继承其强大.稳定 ...