今天,一朋友问我使用JAVA有没有什么办法导出百万级的数据到Excel工作表。

  当时我的第一个念头就是这真的是一个好疯狂的念头。然后就想假如真的有这样类似的需求,我自己应该怎么做呢?

  

  ps: 首先科普一下基础知识

  Excel 2003及以下的版本。一张表最大支持65536行数据,256列。也就是说excel2003完全不可能满足百万数据导出的需求。

  Excel 2007-2010版本。一张表最大支持1048576行,16384列;

  笔者使用的是office 2010,更高的版本笔者没有使用过,暂时无法判断。

  由此看来百万级的数据量对Excel自身已经是属于接近极限的程度。

  假如我们有更大的需求怎么办呢?

  既然单表支持最大是104w条数据,那么更大的需求量我们就只能通过程序级分表操作的方式来实现了。O(∩_∩)O哈哈~

  对于操作Excel的类库。笔者其实了解的并不是很多。只是很早以前使用过POI这个类库,感觉很不错。于是决定从它入手。看看POI有没有什么比较有效的好点的解决办法。由于笔者以前使用的POI版本比较低。而且使用于excel 2003版本。所以遇到了不少问题。

  

  编辑器: Intellij IDEA 13.2

  类库需求: POI-3.10-Final

1 <dependency>
2 <groupId>org.apache.poi</groupId>
3 <artifactId>poi</artifactId>
4 <version>3.10-FINAL</version>
5 </dependency>

  新建一个Maven项目。

  根据笔者以往的经验,直接使用POI写了一份代码。执行的时候直接报错了。

 1 public static void Excel2003Operate(String filePath) throws Exception {
2 HSSFWorkbook hssfWorkbook = new HSSFWorkbook(new FileInputStream(new File(filePath)));
3 HSSFSheet sheet = hssfWorkbook.getSheetAt(0);
4 for (int i = 0; i < 10000; i++) {
5 HSSFRow hssfRow = sheet.createRow(i);
6 for (int j = 0; j < 10; j++) {
7 HSSFCellUtil.createCell(hssfRow, j, String.valueOf(Math.random()));
8 }
9 }
10 FileOutputStream out = new FileOutputStream("workbook.xlsx");
11 hssfWorkbook.write(out);
12 out.close();
13 }
 1 Connected to the target VM, address: '127.0.0.1:62382', transport: 'socket'
2 Exception in thread "main" org.apache.poi.poifs.filesystem.OfficeXmlFileException: The supplied data appears to be in the Office 2007+ XML. You are calling the part of POI that deals with OLE2 Office Documents. You need to call a different part of POI to process this data (eg XSSF instead of HSSF)
3 at org.apache.poi.poifs.storage.HeaderBlock.<init>(HeaderBlock.java:131)
4 at org.apache.poi.poifs.storage.HeaderBlock.<init>(HeaderBlock.java:104)
5 at org.apache.poi.poifs.filesystem.POIFSFileSystem.<init>(POIFSFileSystem.java:128)
6 at org.apache.poi.hssf.usermodel.HSSFWorkbook.<init>(HSSFWorkbook.java:342)
7 at org.apache.poi.hssf.usermodel.HSSFWorkbook.<init>(HSSFWorkbook.java:323)
8 at dev.tinyz.excel.POIUtil.Excel2003Operate(POIUtil.java:23)
9 at dev.tinyz.excel.Main.main(Main.java:16)
10 Disconnected from the target VM, address: '127.0.0.1:62382', transport: 'socket'

  运行直接报错了。仔细看了报错信息之后发现。POI要操作excel 2007及以上的版本需要使用XSSF来代替上面代码的HSSF。

  

  发现类库居然没有XSSF相关的类。着笔者傻眼了说。于是去POI官网查看。发现完整的POI类库包含的内容很多。于是详细了解了一下每个部分的具体作用:

  poi-ooxml和poi-ooxml-schemas是poi对2007及以上版本的扩充。于是在maven依赖中增加:

 1 <dependency>
2 <groupId>org.apache.poi</groupId>
3 <artifactId>poi-ooxml</artifactId>
4 <version>3.10-FINAL</version>
5 </dependency>
6 <dependency>
7 <groupId>org.apache.poi</groupId>
8 <artifactId>poi-ooxml-schemas</artifactId>
9 <version>3.10-FINAL</version>
10 </dependency>

  赶紧修改自己的代码。实现了支持Excel 2010版本。瞬间有种大功告成的感觉,有木有。。O(∩_∩)O哈哈~。好有成就感的说。

 1 public static void Excel2007AboveOperateOld(String filePath) throws IOException {
2 XSSFWorkbook workbook = new XSSFWorkbook(new FileInputStream(new File(filePath)));
3 // 获取第一个表单
4 Sheet first = workbook.getSheetAt(0);
5 for (int i = 0; i < 100000; i++) {
6 Row row = first.createRow(i);
7 for (int j = 0; j < 11; j++) {
8 if(i == 0) {
9 // 首行
10 row.createCell(j).setCellValue("column" + j);
11 } else {
12 // 数据
13 if (j == 0) {
14 CellUtil.createCell(row, j, String.valueOf(i));
15 } else
16 CellUtil.createCell(row, j, String.valueOf(Math.random()));
17 }
18 }
19 }
20 // 写入文件
21 FileOutputStream out = new FileOutputStream("workbook.xlsx");
22 workbook.write(out);
23 out.close();
24 }

  赶紧运行跑起来。第一次测试写入1w条数据。耗时8秒多点。感觉写入速度好慢,1w条8秒,100w。。我的天。这效率完全不能接受。于是测试10w,看看测试一下是不是真的写入速度过慢。测试结果让人崩溃。

1 Cast time : 49699

  测试导出10w条数据到excel耗时将近50秒。于是这种方式被暂时放弃。成就感瞬间被打落在地。

  

  再次回到POI的官网。http://poi.apache.org/spreadsheet/index.html

  官方提到自POI3.8版本开始提供了一种SXSSF的方式,用于超大数据量的操作。于是...

  原文:

  SXSSF is an API-compatible streaming extension of XSSF to be used when very large spreadsheets have to be produced...

  

    马上开动修改代码。代码如下:

 1 public static void Excel2007AboveOperate(String filePath) throws IOException {
2 XSSFWorkbook workbook1 = new XSSFWorkbook(new FileInputStream(new File(filePath)));
3 SXSSFWorkbook sxssfWorkbook = new SXSSFWorkbook(workbook1, 100);
4 // Workbook workbook = WorkbookFactory.create(new FileInputStream(new File(filePath)));
5 Sheet first = sxssfWorkbook.getSheetAt(0);
6 for (int i = 0; i < 100000; i++) {
7 Row row = first.createRow(i);
8 for (int j = 0; j < 11; j++) {
9 if(i == 0) {
10 // 首行
11 row.createCell(j).setCellValue("column" + j);
12 } else {
13 // 数据
14 if (j == 0) {
15 CellUtil.createCell(row, j, String.valueOf(i));
16 } else
17 CellUtil.createCell(row, j, String.valueOf(Math.random()));
18 }
19 }
20 }
21 FileOutputStream out = new FileOutputStream("workbook.xlsx");
22 sxssfWorkbook.write(out);
23 out.close();
24 }

  多次运行测试。查看数据

1 Cast time : 11604

  看到数据的瞬间感觉,哇塞。好给力的说。居然从将近50秒缩短带11秒。。。

  为什么都是代码差距就这么大呢?

  原来,SXSSF实现了一套自动刷入数据的机制。当数据数量达到一定程度时(用户可以自己设置这个限制)。像文本中刷入部分数据。这样就缓解了程序运行时候的压力。达到高效的目的。O(∩_∩)O哈哈~

  再一次测试单表写入100w条数据。

1 Cast time : 87782

  将近90秒就完成了100w条数据的写入。O(∩_∩)O哈哈~。   虽然看上去依旧有一点慢。但是考虑到数据量这样的耗时,想来已经是可以接受的了。100w条数据生成的Excel表单居然有136mb。打开就这个文档都花了不少时间。哈哈

  晒一下成就:

  

 转自:http://www.cnblogs.com/zou90512/p/3989450.html

JAVA笔记-如何将百万级数据高效的导出到Excel表单的更多相关文章

  1. Java导出Pdf格式表单

    前言   作为开发人员,工作中难免会遇到复杂表单的导出,接下来介绍一种通过Java利用模板便捷导出Pdf表单的方式 模拟需求   需求:按照下面格式导出pdf格式的学生成绩单 准备工作 Excel软件 ...

  2. java中的数据导出到Excel表中

    整个项目中导出数据到.Excel的源码 import java.io.BufferedOutputStream; import java.io.FileInputStream; import java ...

  3. Java 添加、删除Excel表单控件

    通过表单控件,用户可以快速地将数据填写到模板文档中,轻松引用单元格数据并与其进行交互.本文通过Java代码示例介绍如何在Excel表格中添加表单控件,包括文本框.单选按钮.复选框.组合框.微调按钮等: ...

  4. BI之路学习笔记2--SSIS/ETL设计练习三:《DB->定期生成excel表》

    上次笔记记到,用sql任务给参数赋值,映射到变量,然后把数据流任务放到序列容器中进行执行,可以定期生成excel, 现在的问题是: 在EXCEL目标编辑过程中,必须选定某一个特定的excel目标,这样 ...

  5. 前端笔记之React(二)组件内部State&React实战&表单元素的受控

    一.组件内部的State 1.1 state state叫状态,是每一个类式组件都有的属性,但函数式组件,没有state. state是一个对象,什么值都可以定义. 在任何类式组件的构造函数中,可以用 ...

  6. 使用jQuery快速高效制作网页交互特效---表单校验

    表单基本验证技术 为什么需要表单验证 减轻服务器的压力 保证输入的数据符合要求 常用的表单验证 1.日期格式 2.表单元素是否为空 3.用户名和密码 4.E-mail地址 5.身份证号码 表单选择器 ...

  7. PHP百万级数据导出方案(多csv文件压缩)

    本文转自网络仅供学习之用 概述: 最近公司项目要求把数据除了页面输出也希望有导出功能,虽然之前也做过几个导出功能,但这次数据量相对比较大,差不多一天数据就20W条,要求导7天或者30天,那么数据量就轻 ...

  8. Java 创建、填充PDF表单域

    表单域,可以按用途分为多种不同的类型,常见的有文本框.多行文本框.密码框.隐藏域.复选框.单选框和下拉选择框等,目的是用于采集用户的输入或选择的数据.下面的示例中,将分享通过Java编程在PDF中添加 ...

  9. Java实现将Excel导入数据库和从数据库中导出为Excel

    实现的功能: 用Java实现从Excel导入数据库,如果存在就更新 将数据库中的数据导出为Excel 1.添加jxl.jar mysql-connector-java.1.7-bin.jar包到项目的 ...

随机推荐

  1. jar包重启脚本-restart.sh

    #!/bin/sh PROJECT_PATH=/var/www/ PROJECT_NAME=demo.jar PROJECT_ALL_LOG_NAME=logs/demo-all.log # stop ...

  2. logstash部署及基本语法(二)

    一.logstash介绍 Logstash是一个开源的数据收集引擎,可以水平伸缩,而且logstash是整个ELK当中拥有最多插件的一个组件,其可以接收来自不同源的数据并统一输入到指定的且可以是不同目 ...

  3. 虚拟机Ubuntu16.04 The system is running in low-graphics mode解决方法!!

    虚拟机Ubuntu16.04无法进入图形界面 The system is running in low-graphics mode 安装的虚拟机Ubuntu16.04 64位本可以正常使用,在安装了许 ...

  4. 安卓手机获取IP地址

    public class IpGetUtil { public static String getIPAddress(Context context) { NetworkInfo info = ((C ...

  5. 20172304 实验二 《Java面向对象程序设计》 实验报告

    20172304 实验二 <Java面向对象程序设计> 实验报告 课程名称:<程序设计与数据结构> 学生班级:1723班 学生姓名:段志轩 学生学号:20172304 实验时间 ...

  6. Python使用正则

    Python中使用正则的两种方式 在Python中有两只能够使用正则表达式的方式: 直接使用re模块中的函数 import re re_string = "{{(.*?)}}" s ...

  7. C# String.Format 格式化字符串 数字/时间

    首先献给只想知道结果的人 格式化 DateTime 对象 标准 数字 格式化 Int Decimal Float Double 关于这一块一直不是很清楚,MSDN 上也不够清晰. 就花了点时间敲了一下 ...

  8. INFORMATION_SCHEMA.COLUMNS-表的字段信息

    当前数据库中当前用户可以访问的每一个列在该视图中占一行.INFORMATION_SCHEMA.COLUMNS 视图以 sysobjects.spt_data type_info.systypes.sy ...

  9. mysql慢查询配置

    1.慢查询有什么用? 能记录下所有执行超过long_query_time时间的SQL语句, 帮你找到执行慢的SQL, 方便我们对这些SQL进行优化. 2. 如何开启慢查询? 首先我们先查看MYSQL服 ...

  10. scriptlet

    <!-- <%! %>:可以修饰全局变量.常量.类.方法 对应java类中的成员变量.常量.内部类.成员方法 --> <%! int num=10;//全局变量 publ ...