POI读写大数据量EXCEL

另一篇文章http://www.cnblogs.com/tootwo2/p/8120053.html里面有xml的一些解释。

大数据量的excel一般都是.xlsx格式的，网上使用POI读写的例子比较多，但是很少提到读写非常大数据量的excel的例子，POI官网上提到XSSF有三种读写excel，POI地址：http://poi.apache.org/spreadsheet/index.html。官网的图片：

可以看到有三种模式：

1、eventmodel方式，基于事件驱动,SAX的方式解析excel（.xlsx是基于OOXML的），CPU和内存消耗非常低，但是只能读不能写

2、usermodel，就是我们一般使用的方式，这种方式可以读可以写，但是CPU和内存消耗非常大

3、SXSSF，POI3.8以后开始支持，这种方式只能写excel

下面介绍下使用方式（官网地址：http://poi.apache.org/spreadsheet/how-to.html）：

第一种方式：

pom文件需要添加依赖：

<dependency>

    <groupId>org.apache.poi</groupId>

    <artifactId>poi-ooxml</artifactId>

    <version>3.15</version>

</dependency>

<dependency>

    <groupId>xerces</groupId>

    <artifactId>xerces</artifactId>

    <version>2.4.0</version>

</dependency>

java官网示例代码：

package excel;

import java.io.InputStream;

import java.util.Iterator;

import org.apache.poi.xssf.eventusermodel.XSSFReader;

import org.apache.poi.xssf.model.SharedStringsTable;

import org.apache.poi.xssf.usermodel.XSSFRichTextString;

import org.apache.poi.openxml4j.opc.OPCPackage;

import org.xml.sax.Attributes;

import org.xml.sax.ContentHandler;

import org.xml.sax.InputSource;

import org.xml.sax.SAXException;

import org.xml.sax.XMLReader;

import org.xml.sax.helpers.DefaultHandler;

import org.xml.sax.helpers.XMLReaderFactory;

public class ExampleEventUserModel {

    public void processOneSheet(String filename) throws Exception {

        OPCPackage pkg = OPCPackage.open(filename);

        XSSFReader r = new XSSFReader( pkg );

        SharedStringsTable sst = r.getSharedStringsTable();

        XMLReader parser = fetchSheetParser(sst);

        // To look up the Sheet Name / Sheet Order / rID,

        //  you need to process the core Workbook stream.

        // Normally it's of the form rId# or rSheet#

        InputStream sheet2 = r.getSheet("rId2");

        InputSource sheetSource = new InputSource(sheet2);

        parser.parse(sheetSource);

        sheet2.close();

    }

    public void processAllSheets(String filename) throws Exception {

        OPCPackage pkg = OPCPackage.open(filename);

        XSSFReader r = new XSSFReader( pkg );

        SharedStringsTable sst = r.getSharedStringsTable();

        XMLReader parser = fetchSheetParser(sst);

        Iterator<InputStream> sheets = r.getSheetsData();

        while(sheets.hasNext()) {

            System.out.println("Processing new sheet:\n");

            InputStream sheet = sheets.next();

            InputSource sheetSource = new InputSource(sheet);

            parser.parse(sheetSource);

            sheet.close();

            System.out.println("");

        }

    }

    public XMLReader fetchSheetParser(SharedStringsTable sst) throws SAXException {

        XMLReader parser =

            XMLReaderFactory.createXMLReader(

                    "com.sun.org.apache.xerces.internal.parsers.SAXParser"

            );

        ContentHandler handler = new SheetHandler(sst);

        parser.setContentHandler(handler);

        return parser;

    }

    /**

     * See org.xml.sax.helpers.DefaultHandler javadocs

     */

    private static class SheetHandler extends DefaultHandler {

        private SharedStringsTable sst;

        private String lastContents;

        private boolean nextIsString;

        private SheetHandler(SharedStringsTable sst) {

            this.sst = sst;

        }

        public void startElement(String uri, String localName, String name,

                Attributes attributes) throws SAXException {

            // c => cell

            if(name.equals("c")) {

                // Print the cell reference

                System.out.print(attributes.getValue("r") + " - ");

                // Figure out if the value is an index in the SST

                String cellType = attributes.getValue("t");

                if(cellType != null && cellType.equals("s")) {

                    nextIsString = true;

                } else {

                    nextIsString = false;

                }

            }

            // Clear contents cache

            lastContents = "";

        }

        public void endElement(String uri, String localName, String name)

                throws SAXException {

            // Process the last contents as required.

            // Do now, as characters() may be called more than once

            if(nextIsString) {

                int idx = Integer.parseInt(lastContents);

                lastContents = new XSSFRichTextString(sst.getEntryAt(idx)).toString();

                nextIsString = false;

            }

            // v => contents of a cell

            // Output after we've seen the string contents

            if(name.equals("v")) {

                System.out.println(lastContents);

            }

        }

        public void characters(char[] ch, int start, int length)

                throws SAXException {

            lastContents += new String(ch, start, length);

        }

    }

    public static void main(String[] args) throws Exception {

        ExampleEventUserModel example = new ExampleEventUserModel();

        System.out.println("11");

        example.processOneSheet(args[0]);

        example.processAllSheets(args[0]);

    }

}

运行的时候使用本地的文件地址替代main函数里面的参数就可以运行（亲测可以）。

第三种方式：

其核心是减少存储在内存当中的数据，达到一定行数就存储到硬盘的临时文件中。

pom文件需要增加依赖：

<dependency>

    <groupId>xerces</groupId>

    <artifactId>xercesImpl</artifactId>

    <version>2.11.0</version>

</dependency>

java代码如下：

package excel;

//import junit.framework.Assert;

import java.io.FileOutputStream;

import org.apache.poi.ss.usermodel.Cell;

import org.apache.poi.ss.usermodel.Row;

import org.apache.poi.ss.usermodel.Sheet;

import org.apache.poi.ss.usermodel.Workbook;

import org.apache.poi.ss.util.CellReference;

import org.apache.poi.xssf.streaming.SXSSFWorkbook;

public class SXSSFDemo {

    public static void main(String[] args) throws Throwable {

        SXSSFWorkbook wb = new SXSSFWorkbook(100); // 在内存当中保持 100 行 , 超过的数据放到硬盘中

        Sheet sh = wb.createSheet();

        for(int rownum = 0; rownum < 10000; rownum++){

            Row row = sh.createRow(rownum);

            for(int cellnum = 0; cellnum < 10; cellnum++){

                Cell cell = row.createCell(cellnum);

                String address = new CellReference(cell).formatAsString();

                cell.setCellValue(address);

            }

        }     

        FileOutputStream out = new FileOutputStream("/Users/tootwo2/Documents/sxssf.xlsx");

        wb.write(out);

        out.close();

        // dispose of temporary files backing this workbook on disk

        wb.dispose();

    }

}

POI读写大数据量EXCEL的更多相关文章

POI读写大数据量excel，解决超过几万行而导致内存溢出的问题
1. Excel2003与Excel2007 两个版本的最大行数和列数不同,2003版最大行数是65536行,最大列数是256列,2007版及以后的版本最大行数是1048576行,最大列数是16384 ...
POI 读写大数据量 EXCEL
参考:https://www.cnblogs.com/tootwo2/p/6683143.html
[转]POI大数据量Excel解决方案
全文转载自:jinshuaiwang的博客目前处理Excel的开源javaAPI主要有两种,一是Jxl(Java Excel API),Jxl只支持Excel2003以下的版本.另外一种是Apach ...
POI3.8解决导出大数据量excel文件时内存溢出的问题
POI3.8的SXSSF包是XSSF的一个扩展版本,支持流处理,在生成大数据量的电子表格且堆空间有限时使用.SXSSF通过限制内存中可访问的记录行数来实现其低内存利用,当达到限定值时,新一行数据的加入 ...
由“大数据量Excel入库高效方式”瞥见“并联系统”之优势
使用场景: 当你有一个Excel文件,需要把其中的数据高速录入到数据库中,文件中包含10万条以上数据. 设计方案: 我们将整个过程分成三个阶段,A(装载Excel文件). ...
C#读取大数据量Excel
var worksheet = workbook.Worksheets["工作表1"]; var maxN = worksheet.Range["A1"].En ...
python3 修改大数据量excel内容
最好使用python3 64位对excel的修改操作: from openpyxl import load_workbook import time #打开一个excel表格.xlsx wb = l ...
POI实现大数据EXCLE导入导出，解决内存溢出问题
使用POI能够导出大数据保证内存不溢出的一个重要原因是SXSSFWorkbook生成的EXCEL为2007版本,修改EXCEL2007文件后缀为ZIP打开可以看到,每一个Sheet都是一个xml文件, ...
poi 操作Excel 以及大数据量导出
maven 依赖 (版本必须一致,否则使用SXSSFworkbook 时程序会报错) <dependency> <groupId>org.apache.poi</grou ...

随机推荐

eclipse使用git提交本地项目，提交至远程github上
准备工作: 目的:eclipse使用git提交本地项目,提交至远程github上 eclipse版本:eclipse4.5 64位 jdk版本:jdk-1.7 64位项目类型:maven web项 ...
MySQL学习总结（二）数据库以及表的基本操作
上一节中详细的介绍了关于MySQL数据库的安装过程,接下来我们就该对数据库以及表进行一些基本的操作了. 1.数据类型 MySQL数据库中提供了整数类型.浮点数类型.定点数类型.日期和时间类型.字符串类 ...
解决Sping 框架 Controller@Value获取不到值
原因:要获取 int.properties 中的数据但是一直拿不到值如下代码使用这种方式注入 *.properties文件  <context: ...
缺省模板参数（借助标准模板容器实现Stack模板）、成员模板、关键字typename
一.缺省模板参数回顾前面的文章,都是自己管理stack的内存,无论是链栈还是数组栈,能否借助标准模板容器管理呢?答案是肯定的,只需要多传一个模板参数即可,而且模板参数还可以是缺省的,如下: temp ...
为MFC中的ListBox添加水平滚动条
我们知道,MFC中的水平滚动条并不像垂直滚动条那样的智能.当文字超出ListBox的宽度时,水平滚动条并不会自己出现,我们需要手动的调用CListBox中的函数SetHorizontalExtent设 ...
Atitit.软件仪表盘(8)--os子系统--资源占用监测
Atitit.软件仪表盘(8)--os子系统--资源占用监测 CPU使用内存使用磁盘队列任务管理器网络速度插件列表( 资源管理器插件,浏览器插件,360optim) 启动项管理 (350) ...
CYQ学习主要摘要
这个个人搞的框架不知道到底怎么样,做个项目测试下看看,本来想用EF的,大多数人说性能低,所以先放弃,试试这个,一些主要地方我做个摘录 5:多表怎么搞定? A:视图方式,将多表查询放到数据库里成视图,情 ...
C++中explicit的用法
https://blog.csdn.net/qq_35524916/article/details/58178072 https://blog.csdn.net/jinjin1062495199/ar ...
Hp && Dell服务器硬件监控
HP 安装HP工具: yum install hpssacli 1 查看控制器状态 raid卡型号等hpssacli ctrl all show status 2 查看硬盘类型.大小 raid级别.状 ...
UNRECOGNIZED SELECTOR SENT TO INSTANCE 问题快速定位的方法
开发中常见的一类崩溃错误是遇到:unrecognized selector sent to instance 0xaxxxx…而backtrace又无法明确说明错误在哪行代码,如何快速定位BUG呢? ...

POI读写大数据量EXCEL

POI读写大数据量EXCEL的更多相关文章

随机推荐

热门专题