JAVA笔记-如何将百万级数据高效的导出到Excel表单

今天，一朋友问我使用JAVA有没有什么办法导出百万级的数据到Excel工作表。

　　当时我的第一个念头就是这真的是一个好疯狂的念头。然后就想假如真的有这样类似的需求，我自己应该怎么做呢？

　　ps: 首先科普一下基础知识

　　Excel 2003及以下的版本。一张表最大支持65536行数据，256列。也就是说excel2003完全不可能满足百万数据导出的需求。

　　Excel 2007-2010版本。一张表最大支持1048576行，16384列；

　　笔者使用的是office 2010，更高的版本笔者没有使用过，暂时无法判断。

　　由此看来百万级的数据量对Excel自身已经是属于接近极限的程度。

　　假如我们有更大的需求怎么办呢？

　　既然单表支持最大是104w条数据，那么更大的需求量我们就只能通过程序级分表操作的方式来实现了。O(∩_∩)O哈哈~

　　对于操作Excel的类库。笔者其实了解的并不是很多。只是很早以前使用过POI这个类库，感觉很不错。于是决定从它入手。看看POI有没有什么比较有效的好点的解决办法。由于笔者以前使用的POI版本比较低。而且使用于excel 2003版本。所以遇到了不少问题。

　　编辑器： Intellij IDEA 13.2

　　类库需求： POI-3.10-Final

1 <dependency>

2             <groupId>org.apache.poi</groupId>

3             <artifactId>poi</artifactId>

4             <version>3.10-FINAL</version>

5         </dependency>

　　新建一个Maven项目。

　　根据笔者以往的经验，直接使用POI写了一份代码。执行的时候直接报错了。

 1 public static void Excel2003Operate(String filePath) throws Exception {

 2         HSSFWorkbook hssfWorkbook = new HSSFWorkbook(new FileInputStream(new File(filePath)));

 3         HSSFSheet sheet = hssfWorkbook.getSheetAt(0);

 4         for (int i = 0; i < 10000; i++) {

 5             HSSFRow hssfRow = sheet.createRow(i);

 6             for (int j = 0; j < 10; j++) {

 7                 HSSFCellUtil.createCell(hssfRow, j, String.valueOf(Math.random()));

 8             }

 9         }

10         FileOutputStream out = new FileOutputStream("workbook.xlsx");

11         hssfWorkbook.write(out);

12         out.close();

13     }

 1 Connected to the target VM, address: '127.0.0.1:62382', transport: 'socket'

 2 Exception in thread "main" org.apache.poi.poifs.filesystem.OfficeXmlFileException: The supplied data appears to be in the Office 2007+ XML. You are calling the part of POI that deals with OLE2 Office Documents. You need to call a different part of POI to process this data (eg XSSF instead of HSSF)

 3     at org.apache.poi.poifs.storage.HeaderBlock.<init>(HeaderBlock.java:131)

 4     at org.apache.poi.poifs.storage.HeaderBlock.<init>(HeaderBlock.java:104)

 5     at org.apache.poi.poifs.filesystem.POIFSFileSystem.<init>(POIFSFileSystem.java:128)

 6     at org.apache.poi.hssf.usermodel.HSSFWorkbook.<init>(HSSFWorkbook.java:342)

 7     at org.apache.poi.hssf.usermodel.HSSFWorkbook.<init>(HSSFWorkbook.java:323)

 8     at dev.tinyz.excel.POIUtil.Excel2003Operate(POIUtil.java:23)

 9     at dev.tinyz.excel.Main.main(Main.java:16)

10 Disconnected from the target VM, address: '127.0.0.1:62382', transport: 'socket'

　　运行直接报错了。仔细看了报错信息之后发现。POI要操作excel 2007及以上的版本需要使用XSSF来代替上面代码的HSSF。

　　发现类库居然没有XSSF相关的类。着笔者傻眼了说。于是去POI官网查看。发现完整的POI类库包含的内容很多。于是详细了解了一下每个部分的具体作用：

　　poi-ooxml和poi-ooxml-schemas是poi对2007及以上版本的扩充。于是在maven依赖中增加：

 1 <dependency>

 2             <groupId>org.apache.poi</groupId>

 3             <artifactId>poi-ooxml</artifactId>

 4             <version>3.10-FINAL</version>

 5         </dependency>

 6         <dependency>

 7             <groupId>org.apache.poi</groupId>

 8             <artifactId>poi-ooxml-schemas</artifactId>

 9             <version>3.10-FINAL</version>

10         </dependency>

　　赶紧修改自己的代码。实现了支持Excel 2010版本。瞬间有种大功告成的感觉，有木有。。O(∩_∩)O哈哈~。好有成就感的说。

 1 public static void Excel2007AboveOperateOld(String filePath) throws IOException {

 2         XSSFWorkbook workbook = new XSSFWorkbook(new FileInputStream(new File(filePath)));

 3         // 获取第一个表单

 4         Sheet first = workbook.getSheetAt(0);

 5         for (int i = 0; i < 100000; i++) {

 6             Row row = first.createRow(i);

 7             for (int j = 0; j < 11; j++) {

 8                 if(i == 0) {

 9                     // 首行

10                     row.createCell(j).setCellValue("column" + j);

11                 } else {

12                     // 数据

13                     if (j == 0) {

14                         CellUtil.createCell(row, j, String.valueOf(i));

15                     } else

16                         CellUtil.createCell(row, j, String.valueOf(Math.random()));

17                 }

18             }

19         }

20         // 写入文件

21         FileOutputStream out = new FileOutputStream("workbook.xlsx");

22         workbook.write(out);

23         out.close();

24     }

　　赶紧运行跑起来。第一次测试写入1w条数据。耗时8秒多点。感觉写入速度好慢，1w条8秒，100w。。我的天。这效率完全不能接受。于是测试10w，看看测试一下是不是真的写入速度过慢。测试结果让人崩溃。

1 Cast time : 49699

　　测试导出10w条数据到excel耗时将近50秒。于是这种方式被暂时放弃。成就感瞬间被打落在地。

　　再次回到POI的官网。http://poi.apache.org/spreadsheet/index.html

　　官方提到自POI3.8版本开始提供了一种SXSSF的方式，用于超大数据量的操作。于是...

　　原文：

　　SXSSF is an API-compatible streaming extension of XSSF to be used when very large spreadsheets have to be produced...

　　　　马上开动修改代码。代码如下：

 1 public static void Excel2007AboveOperate(String filePath) throws IOException {

 2         XSSFWorkbook workbook1 = new XSSFWorkbook(new FileInputStream(new File(filePath)));

 3         SXSSFWorkbook sxssfWorkbook = new SXSSFWorkbook(workbook1, 100);

 4 //            Workbook workbook = WorkbookFactory.create(new FileInputStream(new File(filePath)));

 5         Sheet first = sxssfWorkbook.getSheetAt(0);

 6         for (int i = 0; i < 100000; i++) {

 7             Row row = first.createRow(i);

 8             for (int j = 0; j < 11; j++) {

 9                 if(i == 0) {

10                     // 首行

11                     row.createCell(j).setCellValue("column" + j);

12                 } else {

13                     // 数据

14                     if (j == 0) {

15                         CellUtil.createCell(row, j, String.valueOf(i));

16                     } else

17                         CellUtil.createCell(row, j, String.valueOf(Math.random()));

18                 }

19             }

20         }

21         FileOutputStream out = new FileOutputStream("workbook.xlsx");

22         sxssfWorkbook.write(out);

23         out.close();

24     }

　　多次运行测试。查看数据

1 Cast time : 11604

　　看到数据的瞬间感觉，哇塞。好给力的说。居然从将近50秒缩短带11秒。。。

　　为什么都是代码差距就这么大呢？

　　原来，SXSSF实现了一套自动刷入数据的机制。当数据数量达到一定程度时(用户可以自己设置这个限制)。像文本中刷入部分数据。这样就缓解了程序运行时候的压力。达到高效的目的。O(∩_∩)O哈哈~

　　再一次测试单表写入100w条数据。

1 Cast time : 87782

　　将近90秒就完成了100w条数据的写入。O(∩_∩)O哈哈~。虽然看上去依旧有一点慢。但是考虑到数据量这样的耗时，想来已经是可以接受的了。100w条数据生成的Excel表单居然有136mb。打开就这个文档都花了不少时间。哈哈

　　晒一下成就：

　转自：http://www.cnblogs.com/zou90512/p/3989450.html

JAVA笔记-如何将百万级数据高效的导出到Excel表单的更多相关文章

Java导出Pdf格式表单
前言作为开发人员,工作中难免会遇到复杂表单的导出,接下来介绍一种通过Java利用模板便捷导出Pdf表单的方式模拟需求需求:按照下面格式导出pdf格式的学生成绩单准备工作 Excel软件 ...
java中的数据导出到Excel表中
整个项目中导出数据到.Excel的源码 import java.io.BufferedOutputStream; import java.io.FileInputStream; import java ...
Java 添加、删除Excel表单控件
通过表单控件,用户可以快速地将数据填写到模板文档中,轻松引用单元格数据并与其进行交互.本文通过Java代码示例介绍如何在Excel表格中添加表单控件,包括文本框.单选按钮.复选框.组合框.微调按钮等: ...
BI之路学习笔记2--SSIS/ETL设计练习三：《DB->定期生成excel表》
上次笔记记到,用sql任务给参数赋值,映射到变量,然后把数据流任务放到序列容器中进行执行,可以定期生成excel, 现在的问题是: 在EXCEL目标编辑过程中,必须选定某一个特定的excel目标,这样 ...
前端笔记之React（二）组件内部State&React实战&表单元素的受控
一.组件内部的State 1.1 state state叫状态,是每一个类式组件都有的属性,但函数式组件,没有state. state是一个对象,什么值都可以定义. 在任何类式组件的构造函数中,可以用 ...
使用jQuery快速高效制作网页交互特效---表单校验
表单基本验证技术为什么需要表单验证减轻服务器的压力保证输入的数据符合要求常用的表单验证 1.日期格式 2.表单元素是否为空 3.用户名和密码 4.E-mail地址 5.身份证号码表单选择器 ...
PHP百万级数据导出方案（多csv文件压缩）
本文转自网络仅供学习之用概述: 最近公司项目要求把数据除了页面输出也希望有导出功能,虽然之前也做过几个导出功能,但这次数据量相对比较大,差不多一天数据就20W条,要求导7天或者30天,那么数据量就轻 ...
Java 创建、填充PDF表单域
表单域,可以按用途分为多种不同的类型,常见的有文本框.多行文本框.密码框.隐藏域.复选框.单选框和下拉选择框等,目的是用于采集用户的输入或选择的数据.下面的示例中,将分享通过Java编程在PDF中添加 ...
Java实现将Excel导入数据库和从数据库中导出为Excel
实现的功能: 用Java实现从Excel导入数据库,如果存在就更新将数据库中的数据导出为Excel 1.添加jxl.jar mysql-connector-java.1.7-bin.jar包到项目的 ...

随机推荐

【Codeforces】113 D. Museum
题解我们设\(f(i,j)\)是\((i,j)\)这个点期望被经过多少次我们可以列出方程组来消元,由于终点只会被经过0次或者1次,期望就是概率对于起点的话我们期望经过次数多加一个1 复杂度\(O ...
USACO 完结的一些感想
其实日期没有那么近啦……只是我偶尔还点进去造成的,导致我没有每一章刷完的纪念日了但是全刷完是今天啦讲真,题很锻炼思维能力,USACO保持着一贯猎奇的题目描述,以及尽量不用高级算法就完成的题解……例 ...
JS 如何准确获取当前页面URL网址信息
在WEB开发中,时常会用到javascript来获取当前页面的url网址信息,在这里是一些获取url信息的小总结. 下面我们举例一个URL,然后获得它的各个组成部分:http://i.cnblogs. ...
003 Ajax中传输格式为XML
一: 1.优缺点二:大纲 1.结构设计三:程序 1.xml <?xml version="1.0" encoding="utf-8"?> < ...
VMware下CenOS7系统的安装及lnmp服务器的搭建
CentOS7系统的安装 CentOS7下载:http://mirrors.aliyun.com/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1708.iso 下 ...
java把html标签字符转换成普通字符(反转换成html标签)
package net.jasonjiang.web; import org.junit.Test; import org.springframework.web.util.HtmlUtils; /* ...
在windows下的CLI模式下如何运行php文件
https://blog.csdn.net/evkj2013/article/details/52313728 https://jingyan.baidu.com/article/da1091fb09 ...
thinkphp和ueditor自定义后台处理方法整合
先了解一下ueditor后台请求参数与返回参数格式规范: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 ...
在（Raspberry Pi）树莓派上安装NodeJS
本文主讲如何在树莓派3B上安装node.js 环境描述1. 树莓派安装了`2016-11-25-raspbian-jessie-lite`(PS:在此版本的镜像中,默认禁用了ssh,在烧录好镜像之后, ...
家谱(gen)
家谱(gen) 时间限制 2S [问题描述] 现代的人对于本家族血统越来越感兴趣,现在给出充足的父子关系,请你编写程序找到某个人的最早的祖先. [输入格式]gen.in 输入文件由多行组成, ...

JAVA笔记-如何将百万级数据高效的导出到Excel表单

JAVA笔记-如何将百万级数据高效的导出到Excel表单的更多相关文章

随机推荐

热门专题