基于EasyExcel的大数据量导入并去重

源码：https://gitee.com/antia11/excel-data-import-demo

背景：客户需要每周会将上传一个 Excel 数据文件，数据量单次为 20W 以上，作为其他模块和报表的基础数据。

客户需求分析：

数据量为 20W 条左右。
数据需要去重。
等待时间不能太长。
文件中会有错误数据存在，错误数据跳过不进入数据库。

注意点：

为提高导入速度，选择分批插入，每次插入 1000 条数据。
在读取数据时判断数据是否正确，不正确不插入。
对数据进行去重。

实现逻辑：

首先使用 EasyExcel 实现分批插入数据。
数据插入完成后，在数据库使用 SQL 的方式进行去重，避免内存溢出。

package com.antia1.demo.service;

import com.alibaba.excel.EasyExcel;

import com.antia1.demo.entity.ExcelDataEntity;

import com.antia1.demo.listener.ExcelDataListener;

import com.antia1.demo.mapper.ExcelDataMapper;

import com.antia1.demo.util.RespBean;

import lombok.extern.slf4j.Slf4j;

import org.springframework.beans.factory.annotation.Autowired;

import org.springframework.stereotype.Service;

import org.springframework.web.multipart.MultipartFile;

import java.io.IOException;

import java.util.Map;

/**

 * Author: anti

 * Date: 2022/7/23 16:13

 */

@Service

@Slf4j

public class ExcelDataService {

    @Autowired

    private ExcelDataMapper excelDataMapper;

    public RespBean importData(MultipartFile file) throws IOException {

        //0.获取数据库中的最大id

        Map<String, Object> idMap = excelDataMapper.getMaxId();

        int maxId = Integer.parseInt(idMap.get("maxId") + "");

        //1.读取excel

        EasyExcel.read(file.getInputStream(), ExcelDataEntity.class,new ExcelDataListener(excelDataMapper,maxId)).sheet().doRead();

        //2.开始去除重复数据

        log.debug("全部导入完成，开始进行数据去重");

        int count = excelDataMapper.deleteDuplicates();

        log.debug("去除重复数据:{}条",count);

        return RespBean.ok("导入完成");

    }

}

package com.antia1.demo.listener;

import com.alibaba.excel.context.AnalysisContext;

import com.alibaba.excel.event.AnalysisEventListener;

import com.antia1.demo.entity.ExcelDataEntity;

import com.antia1.demo.mapper.ExcelDataMapper;

import lombok.extern.slf4j.Slf4j;

import java.util.ArrayList;

import java.util.List;

/**

 * Author: anti

 * Date: 2022/7/23 16:10

 */

@Slf4j

public class ExcelDataListener extends AnalysisEventListener<ExcelDataEntity> {

    private static final int BATCH_COUNT = 1000;

    private List<ExcelDataEntity> list = new ArrayList<>();

    private ExcelDataMapper excelDataMapper;

    private int primaryKey;

    private int totalCount;

    public ExcelDataListener(ExcelDataMapper excelDataMapper, int primaryKey) {

        this.excelDataMapper = excelDataMapper;

        this.primaryKey = primaryKey;

    }

    @Override

    public void invoke(ExcelDataEntity excelDataEntity, AnalysisContext analysisContext) {

        primaryKey ++ ;

        excelDataEntity.setId(String.valueOf(primaryKey));

        list.add(excelDataEntity);

        if(list.size() >= BATCH_COUNT){

            saveData();

            list.clear();

        }

    }

    @Override

    public void doAfterAllAnalysed(AnalysisContext analysisContext) {

        saveData();

        System.out.println(String.format("数据同步完成,总数量为:%s",totalCount));

    }

    public void saveData(){

        if(list.size()>0){

            int count = excelDataMapper.insertBatch(list);

            totalCount += count;

        }

    }

}

<?xml version="1.0" encoding="UTF-8" ?>

<!DOCTYPE mapper

        PUBLIC "-//mybatis.org//DTD Mapper 3.0//EN"

        "http://mybatis.org/dtd/mybatis-3-mapper.dtd">

<mapper namespace="com.antia1.demo.mapper.ExcelDataMapper">

  <!--数据插入-->

  <insert id="insertBatch" parameterType="java.util.List">

    INSERT INTO `demo`.`tb_exceldata` (

    `id`,

    `code`,

    `desc`,

    `objectCode`,

    `projectCode`,

    `other`

    )

    VALUES

    <foreach collection="list" item="item" separator=",">

      (#{item.id}, #{item.code}, #{item.desc}, #{item.objectCode},#{item.projectCode},#{item.other})

    </foreach>

  </insert>

  <!--查询最大id-->

  <select id="getMaxId" resultType="java.util.Map">

    SELECT IFNULL(MAX(CAST(id AS SIGNED)),0) AS maxId FROM `demo`.`tb_exceldata`

  </select>

  <!--去除重复数据-->

  <delete id="deleteDuplicates">

    DELETE

    FROM

    `tb_exceldata`

    WHERE

    id NOT IN (

    SELECT

    t.id

    FROM

    ( SELECT MIN( id ) AS id FROM `tb_exceldata` GROUP BY `code`,`desc`,`objectCode`,`projectCode`,`other`) t

    )

  </delete>

</mapper>

基于EasyExcel的大数据量导入并去重的更多相关文章

Mysql 大数据量导入程序
Mysql 大数据量导入程序<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" ...
java excel大数据量导入导出与优化
package com.hundsun.ta.utils; import java.io.File; import java.io.FileOutputStream; import java.io.I ...
JAVA JDBC大数据量导入Mysql
转自https://blog.csdn.net/q6834850/article/details/73726707?tdsourcetag=s_pctim_aiomsg 采用JDBC批处理(开启事务. ...
【Java POI】POI基于事件驱动解析大数据量2007版本Excel，空值导致列错位问题
1.目前测试了20M的文件,可以读取. 2.支持单个工作表1万+的数据行数,耗时如图. 3.以下是关键地方处理的代码 //Accepts objects needed while parsing. / ...
SQL Server 使用bcp进行大数据量导出导入
转载:http://www.cnblogs.com/gaizai/archive/2010/04/17/1714389.html SQL Server的导出导入方式有: 在SQL Server中提供了 ...
使用OPENROWSET、Microsoft.ACE.OLEDB实现大数据量的高效导入
首先说明使用的环境是:java和Sqlserver. 最近公司需要进行大数据量的导入操作.原来使用的是Apache POI,虽然可以实现功能,但是因为逻辑处理中需要进行许多校验,处理速度太慢,使用多线 ...
MYSQL数据库导入大数据量sql文件失败的解决方案
1.在讨论这个问题之前首先介绍一下什么是"大数据量sql文件". 导出sql文件.选择数据库-----右击选择"转储SQL文件"-----选择"结构和 ...
MySQL数据库如何解决大数据量存储问题
利用MySQL数据库如何解决大数据量存储问题? 各位高手您们好,我最近接手公司里一个比较棘手的问题,关于如何利用MySQL存储大数据量的问题,主要是数据库中的两张历史数据表,一张模拟量历史数据和一张开 ...
利用MySQL数据库如何解决大数据量存储问题？
提问:如何设计或优化千万级别的大表?此外无其他信息,个人觉得这个话题有点范,就只好简单说下该如何做,对于一个存储设计,必须考虑业务特点,收集的信息如下:1.数据的容量:1-3年内会大概多少条数据,每条 ...

随机推荐

盘点提高国内访问 Github 的速度的 9 种方案
开源Linux 长按二维码加关注~ 上一篇:一行代码如何隐藏Linux进程? 来源:https://urlify.cn/IFzQRb GitHub 镜像访问 GitHub文件加速 Github 加速下 ...
MAC 地址为什么不需要全球唯一
MAC 地址(Media access control address)是分配给网络接口控制器(Network interface controller, NIC)的唯一标识符,它会在网络段中充当网络 ...
SpringBoot整合MybatisPlus基本的增删改查，保姆级教程
概述 MybatisPlus是国产的第三方插件, 它封装了许多常用的CURDapi,免去了我们写mapper.xml的重复劳动,这里介绍了基本的整合SpringBoot和基础用法. 引入依赖在项目中 ...
(Bezier)贝塞尔曲在路径规划的运用
前言之前被安排了活,一个局部区域机器运动控制的工作,大致是一个机器位于一个极限区域时候,机器要进入一个特殊的机制,使得机器可以安全的走出来.其中用到了bezier曲线进行优化路径,今天写一下,正好也 ...
JWT 访问令牌
JWT 访问令牌更为详细的介绍jwt 在学习jwt之前我们首先了解一下用户身份验证 1 单一服务器认证模式一般过程如下: 用户向服务器发送用户名和密码. 验证服务器后,相关数据(如用户名,用户角色 ...
联盟链 Hyperledger Fabric 应用场景
一.说明本文主要通过一个例子分享以 Hyperledger Fabric 为代表的联盟链应用场景. 关于 Fabric 的相关概念请先参考文章 <Hyperledger Fabric 核心概念 ...
vue传值的几种方式
props:适用于父组件 ==> 子组件通信由父组件传值子组件在props中接收即可: (由父组件给子组件传递函数类型的props可实现子组件 ==> 父组件传递数据,较为繁 ...
vue虚拟dom和diff算法
vue的虚拟dom和diff算法 1.虚拟dom 虚拟dom,我的理解就是通过js对象的方式来具体化每一个节点,把dom树上面的每个节点都变为对象里的一个元素,元素的子元素变为子节点,节点上面的cla ...
基于web3D展示技术的煤矿巷道3D可视化系统
地下开采离不开巷道工程.煤矿的生产.运输.排水.通风等各个环节都少不了巷道的支持.在煤矿智能化建设被提上日程的今天,巷道工程的智能化.可视化建设也成了行业趋势.尤其是复杂的井下作业环境,人员信息安全问 ...
BPC 脚本
// //税款计算(现金流) // //2018年5月11日修改,去除之前的送数逻辑,新增BADI计算相关科目 // *SELECT(%010804ZH%, "ID", " ...

基于EasyExcel的大数据量导入并去重

客户需求分析：

注意点：

实现逻辑：

基于EasyExcel的大数据量导入并去重的更多相关文章

随机推荐

热门专题