POISAXReader

h2:first-child, body>h1:first-child, body>h1:first-child+h2, body>h3:first-child, body>h4:first-child, body>h5:first-child, body>h6:first-child {
margin-top: 0;
padding-top: 0;
}

a:first-child h1, a:first-child h2, a:first-child h3, a:first-child h4, a:first-child h5, a:first-child h6 {
margin-top: 0;
padding-top: 0;
}

h1+p, h2+p, h3+p, h4+p, h5+p, h6+p {
margin-top: 10px;
}

/* LINKS
=============================================================================*/

a {
color: #4183C4;
text-decoration: none;
}

a:hover {
text-decoration: underline;
}

/* CODE
=============================================================================*/

pre, code, tt {
font-size: 12px;
font-family: Consolas, "Liberation Mono", Courier, monospace;
}

code, tt {
margin: 0 0px;
padding: 0px 0px;
white-space: nowrap;
border: 1px solid #eaeaea;
background-color: #f8f8f8;
border-radius: 3px;
}

pre>code {
margin: 0;
padding: 0;
white-space: pre;
border: none;
background: transparent;
}

pre {
background-color: #f8f8f8;
border: 1px solid #ccc;
font-size: 13px;
line-height: 19px;
overflow: auto;
padding: 6px 10px;
border-radius: 3px;
}

pre code, pre tt {
background-color: transparent;
border: none;
}

kbd {
-moz-border-bottom-colors: none;
-moz-border-left-colors: none;
-moz-border-right-colors: none;
-moz-border-top-colors: none;
background-color: #DDDDDD;
background-image: linear-gradient(#F1F1F1, #DDDDDD);
background-repeat: repeat-x;
border-color: #DDDDDD #CCCCCC #CCCCCC #DDDDDD;
border-image: none;
border-radius: 2px 2px 2px 2px;
border-style: solid;
border-width: 1px;
font-family: "Helvetica Neue",Helvetica,Arial,sans-serif;
line-height: 10px;
padding: 1px 4px;
}

/* QUOTES
=============================================================================*/

blockquote {
border-left: 4px solid #DDD;
padding: 0 15px;
color: #777;
}

blockquote>:first-child {
margin-top: 0px;
}

blockquote>:last-child {
margin-bottom: 0px;
}

/* HORIZONTAL RULES
=============================================================================*/

hr {
clear: both;
margin: 15px 0;
height: 0px;
overflow: hidden;
border: none;
background: transparent;
border-bottom: 4px solid #ddd;
padding: 0;
}

/* IMAGES
=============================================================================*/

img {
max-width: 100%
}
-->

解决POI读取XLSX文件内存占用过过多

poi处理excel分别提供比较友好的用户模式以及比较底层的事件模式。其中,用户模式提供良好的封装,同时兼容2003以及2007以上的格式,使用相当方便。不过,代价是花费巨大的内存。只要超过6w条以后,基本是就是内存溢出了。
  好在POI团队也提供了更底层的的流处理模式eventMode,对于大数据的Xlsx文件的写入,poi 3.8 提供SXSSF,采用缓存方式写如文件。对于文件的读取采用sax的方式直接读取每个sheet对应的xml文件。添加微信,回复poi,邀请你加群

POI SheetContentsHandler 接口

在POI中已经对SAX当时读取对应的Sheet的xml文件已经做了基本的封装,所以我们仅仅需要实现接口SheetContentsHandler,就可以完成SAX的方式读取。这个接口中需要是实现三个方法

  • public void startRow(int rowNum) 读取某行开始
  • public void endRow(int rowNum) 读取某行结束
  • public void cell(String cellReference, String formattedValue,XSSFComment comment) 读取某行中的单元格
  • public void headerFooter(String text, boolean isHeader, String tagName) 暂时不清楚

POI SheetContentsHandler实现

这里我主要参照poi XLSX2CSV.java实现方式,需要提供对应的xlsx文件最大列数。其次,我在此基础上做了扩展,在 endRow 提供了一个事件,当前处理的的行数据,让这个解析功能更加独立。
实现思路,在startRow方法中构造一个List对象,在cell函数中添加每个单元内容,在endRow函数中判断当前列是否等于最大列数,如果不等循环补齐,并出发添加行事件
SheetSaxHandler详细代码

  1. protected class SheetSaxHandler implements SheetContentsHandler {
  2. private int currentRow = -1;
  3. private int currentCol = -1;
  4. private int minColumns;
  5. public void setMinColumns(int minColumns) {
  6. this.minColumns = minColumns;
  7. }
  8. public SheetSaxHandler(int minColumns) {
  9. super();
  10. this.minColumns = minColumns;
  11. }
  12. public SheetSaxHandler() {
  13. }
  14. private List<SheetRowListener> listeners = new ArrayList<SheetRowListener>();
  15. private List<String> lRows = new ArrayList<String>(); // 处理一行信息
  16. public void rowAdded(SheetRowListener add) {
  17. listeners.add(add);
  18. }
  19. private void postRowAdded(List<String> row, int rowNum)
  20. throws SQLException {
  21. for (SheetRowListener hl : listeners)
  22. hl.addRow(row, rowNum);
  23. }
  24. @Override
  25. public void startRow(int rowNum) {
  26. currentRow = rowNum;
  27. currentCol = -1;
  28. lRows.clear();
  29. }
  30. @Override
  31. public void endRow(int rowNum) {
  32. // 添加数据
  33. for (int i = currentCol; i < minColumns; i++) {
  34. lRows.add("");
  35. }
  36. try {
  37. postRowAdded(lRows, rowNum);
  38. } catch (SQLException e) {
  39. e.printStackTrace();
  40. }
  41. }
  42. @Override
  43. public void cell(String cellReference, String formattedValue,
  44. XSSFComment comment) {
  45. if (cellReference == null) {
  46. cellReference = new CellAddress(currentRow, currentCol)
  47. .formatAsString();
  48. }
  49. int thisCol = (new CellReference(cellReference)).getCol();
  50. int missedCols = thisCol - currentCol - 1;//处理数据中间存在空白
  51. for (int i = 0; i < missedCols; i++) {
  52. this.lRows.add("");
  53. }
  54. currentCol = thisCol;
  55. // TODO 数据类型处理
  56. try {
  57. Double.parseDouble(formattedValue);
  58. this.lRows.add(formattedValue);
  59. } catch (NumberFormatException e) {
  60. this.lRows.add(formattedValue);
  61. }
  62. }
  63. @Override
  64. public void headerFooter(String text, boolean isHeader, String tagName) {
  65. System.out.println(text + "==" + isHeader + "==" + tagName);
  66. }
  67. }

事件接口

  1. interface SheetRowListener {
  2. void addRow(List<String> row, int rowNum);
  3. }

调用方式

  1. 打开文件
  2. 找到对应sheet的xml文件
  3. 使用上边的方法依次处理每一个sheet
处理文件
  1. @Override
  2. public int saveToOracle(String filePath, String pcId)
  3. throws FileNotFoundException, EncryptedDocumentException,
  4. InvalidFormatException, IOException, ClassNotFoundException,
  5. SQLException, OpenXML4JException, SAXException,
  6. ParserConfigurationException {
  7. File f = new File(filePath);
  8. OPCPackage p = null;
  9. int num = 0;
  10. Connection conn = null;
  11. if (f.exists()) {
  12. try {
  13. JSONArray sheetCfgs = this.cfgJson.getJSONArray("sheets");
  14. dataBuferRows = this.cfgJson.getInteger("dataBuferRows");
  15. dataBuferRows = dataBuferRows == null ? 1000 : dataBuferRows;
  16. conn = ca.getConnection(ca.getSqlCfg(serverPath));
  17. String importTime = new SimpleDateFormat(
  18. "yyyy-MM-dd HH:mm:ss.SSS").format(new Date());
  19. p = OPCPackage.open(f, PackageAccess.READ);
  20. ReadOnlySharedStringsTable strings = new ReadOnlySharedStringsTable(
  21. p);
  22. XSSFReader xssfReader = new XSSFReader(p);
  23. StylesTable styles = xssfReader.getStylesTable();
  24. XSSFReader.SheetIterator iter = (XSSFReader.SheetIterator) xssfReader
  25. .getSheetsData();
  26. HashMap<Integer, JSONObject> hSheetCfg = new HashMap<Integer, JSONObject>();
  27. for (int i = 0; i < sheetCfgs.size(); i++) {
  28. JSONObject sheetCfg = sheetCfgs.getJSONObject(i);
  29. hSheetCfg.put(sheetCfg.getInteger("sheetIndex"), sheetCfg);
  30. }
  31. int index = 1;
  32. while (iter.hasNext()) {
  33. InputStream sheetStream = iter.next();
  34. if (hSheetCfg.containsKey(index)) {
  35. processSheet(styles, strings, new SheetSaxHandler(),
  36. sheetStream, hSheetCfg.get(index), conn, pcId,
  37. this.fileName, importTime);
  38. }
  39. index++;
  40. }
  41. p.close();
  42. f = null;
  43. conn.close();
  44. } catch (SQLException e) {
  45. conn.close();
  46. conn = null;
  47. throw e;
  48. }
  49. }
  50. return num;
  51. }

处理Sheet

  1. public void processSheet(StylesTable styles,
  2. ReadOnlySharedStringsTable strings, SheetSaxHandler sheetHandler,
  3. InputStream sheetInputStream, final JSONObject sheetCfg,
  4. final Connection conn, String PcID, String fileName,
  5. String importTime) throws IOException,
  6. ParserConfigurationException, SAXException, SQLException {
  7. final PreparedStatement ps = conn.prepareStatement(ca.buildInsertSql(
  8. sheetCfg, PcID, fileName, importTime));
  9. final int dataStartNum = sheetCfg.getIntValue("dataStartNum");
  10. sheetHandler.setMinColumns(sheetCfg.getJSONArray("fieldReference")
  11. .size());
  12. sheetHandler.rowAdded(new SheetRowListener() {
  13. @Override
  14. public void addRow(List<String> row, int rowNum) {
  15. if (rowNum < dataStartNum - 1)
  16. return;
  17. try {
  18. ca.setParamter(ps, sheetCfg, row, rowNum - dataStartNum);
  19. if (rowNum % dataBuferRows == 0) {
  20. ps.executeBatch();
  21. ps.clearBatch();
  22. }
  23. } catch (SQLException e) {
  24. try {
  25. ps.close();
  26. conn.close();
  27. throw e;
  28. } catch (SQLException e1) {
  29. e1.printStackTrace();
  30. }
  31. e.printStackTrace();
  32. }
  33. }
  34. });
  35. XMLReader sheetParser = SAXHelper.newXMLReader();
  36. DataFormatter formatter = new DataFormatter();
  37. InputSource sheetSource = new InputSource(sheetInputStream);
  38. ContentHandler handler = new XSSFSheetXMLHandler(styles, null, strings,
  39. sheetHandler, formatter, false);
  40. sheetParser.setContentHandler(handler);
  41. sheetParser.parse(sheetSource);
  42. // 处理剩下的数据
  43. ps.executeBatch();
  44. ps.clearBatch();
  45. // 关闭当前ps
  46. ps.close();
  47. }
  48. `

总结

在最初使用poi的用户模式,很快的就完成一个excel文件的解析,很方便。随着项目的逐渐深入,处理的excel文件越来越大,用户模式已经不能胜任。于是开始查找资料,在官网上看到了转csv的实例。
这段代码的主要功能将excel文件中的数据导入到oracle数据库对应的表中,在实现功能方面,我主要遇到了以下问题

  1. 解决excel文件解析内存泄露(2007以后文件采用sax方式基本解决)
  2. 对应大量数据的保存,速度一直很慢,尽管我这里采用了批量提交的方式(目前这问题我依然没找到很好的方案,如果有同行看到的,还希望多多指教

使用(POI)SAX处理Excel文件,防止内存溢出的更多相关文章

  1. php导出为excel文件避免内存溢出

    轻松解决PHPExcel导出10W行超时和内存溢出问题   使用了一个轻量级的PHP的Excel操作库-PHP_XLSXWriter 10w行excel数据导出仅需要5.26秒,再也不用担心excel ...

  2. POI3.8解决导出大数据量excel文件时内存溢出的问题

    POI3.8的SXSSF包是XSSF的一个扩展版本,支持流处理,在生成大数据量的电子表格且堆空间有限时使用.SXSSF通过限制内存中可访问的记录行数来实现其低内存利用,当达到限定值时,新一行数据的加入 ...

  3. 使用(POI)SAX处理Excel大文件,防止内存溢出

    POISAXReader h2:first-child, body>h1:first-child, body>h1:first-child+h2, body>h3:first-chi ...

  4. POI读取/写入Excel文件

    import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io ...

  5. 【POI】导出excel文件,不生成中间文件,直接将内存中的数据创建对象下载到浏览器

    不是从InputStream中read,然后outputStream再write @RequestMapping("download4Excel") public void dow ...

  6. java 导出 excel 最佳实践,java 大文件 excel 避免OOM(内存溢出) excel 工具框架

    产品需求 产品经理需要导出一个页面的所有的信息到 EXCEL 文件. 需求分析 对于 excel 导出,是一个很常见的需求. 最常见的解决方案就是使用 poi 直接同步导出一个 excel 文件. 客 ...

  7. java中使用poi导入导出excel文件_并自定义日期格式

    Apache POI项目的使命是创造和保持java API操纵各种文件格式基于Office Open XML标准(OOXML)和微软的OLE复合文档格式(OLE2)2.总之,你可以读写Excel文件使 ...

  8. Apache POI 实现对 Excel 文件读写

    1. Apache POI 简介 Apache POI是Apache软件基金会的开放源码函式库. 提供API给Java应用程序对Microsoft Office格式档案读和写的功能. 老外起名字总是很 ...

  9. Java入门开发POI读取导入Excel文件

    Apache POI是Apache开发的开源的跨平台的 Java API,提供API给Java程序对Microsoft Office格式档案进行各种操作. POI中Excel操作很简单,主要类有 HS ...

随机推荐

  1. Accordion - 手风琴

    //手风琴效果 <div style="overflow:hidden;height:400px;width:948px;"> <div class=" ...

  2. python模块及包的导入

    一.模块 通常模块为一个文件,直接使用import来导入就好了.可以作为module的文件类型有".py".".pyo".".pyc".&q ...

  3. [转载]Firebird与MySQL:一个使用者的体会

    老板要我开发一个LINUX平台上的数据库项目,要求一定要用开源免费数据库.我知道这个数据库必须能够上网操作,同时作为公司的核心骨干数据库,除了必须是稳定的存储数据库外还必须有很强的数据和数据库控管功能 ...

  4. C#基于Office组件操作Excel

    1.    内容简介 实现C#与Excel文件的交互操作,实现以下功能: a)     DataTable 导出到 Excel文件 b)     Model数据实体导出到 Excel文件[List&l ...

  5. Postman-进阶

    Postman-简单使用 Postman-进阶使用 Postman-CI集成Jenkins 管理请求 保存请求-添加“打开百度首页请求” 设置请求方式为Get,地址为www.baidu.com.点击右 ...

  6. [UCSD白板题] Greatest Common Divisor

    Problem Introduction The greatest common divisor \(GCD(a, b)\) of two non-negative integers \(a\) an ...

  7. IQueryable<T> 与 ObjectQuery<T> 差异

    命名空间:System.Data.Objects程序集:  System.Data.Entity(在 System.Data.Entity.dll 中)public class ObjectQuery ...

  8. 关于gridview里加按钮事件的总结

    1. onrowcommand="GridView1_RowCommand1" 在gridview申明时的属性里要有,然后找到闪电,双击 还有要把那个按钮行模板化,就是箭头里面的t ...

  9. 头部加mead(便于seo优化)

    <meta name="Keywords" content="关键词,关键词" /> <meta name="description ...

  10. Android 环境搭建

    一.Android 环境搭建 开发工具: Android Studio(开发工具,前提是先装 java JDK) 下载地址:http://www.androiddevtools.cn/   Oracl ...