java读取大文件内容到Elasticsearch分析（手把手教你java处理超大csv文件）


现在需要快算分析一个2g的csv文件；

基于掌握的知识，使用java按行读取文件，批量导入数据到es，

然后利用es强大的聚合能力分析数据，2个小时搞定！

package com.example.demo;

import com.alibaba.fastjson.JSON;

import com.example.demo.entity.Entity;

import org.apache.commons.io.FileUtils;

import org.apache.commons.io.LineIterator;

import org.elasticsearch.action.bulk.BulkRequest;

import org.elasticsearch.action.index.IndexRequest;

import org.elasticsearch.action.index.IndexResponse;

import org.elasticsearch.client.RequestOptions;

import org.elasticsearch.client.RestHighLevelClient;

import org.elasticsearch.common.xcontent.XContentType;

import org.junit.jupiter.api.Test;

import org.springframework.beans.factory.annotation.Autowired;

import org.springframework.beans.factory.annotation.Qualifier;

import org.springframework.boot.test.context.SpringBootTest;

import java.io.File;

import java.io.IOException;

import java.util.ArrayList;

import java.util.Date;

import java.util.List;

import java.util.Objects;

/**

 * 读取大文件

 * csv格式

 *

 * @author lhb

 * @date 2021/11/11

 * @since 1.0.0

 */

@SpringBootTest

public class ImportTest {

    @Autowired

    @Qualifier("client")

    private RestHighLevelClient restHighLevelClient;

    @Test

    void insert() {

　　　　　//csv文件2G，63W条数据，十多个字段

        String filePath = "D:\\file\\20211111.csv";

        LineIterator it = null;

        try {

            it = FileUtils.lineIterator(new File(filePath), "UTF-8");

        } catch (IOException e) {

            e.printStackTrace();

        }

        try {

            while (it.hasNext()) {

                String line = it.nextLine();

                //System.out.println("line = " + line);

                //文件是CSV文件，CSV文件中的每一列是用","隔开的，这样就可以得到每一列的元素

                String[] strArray = line.split(",");

                //有很长的空格，trim一下

                String name = strArray[6].trim();

                String code = strArray[8].trim();

                String num = strArray[11].trim();

                System.out.println(code + "==" + num);

                Entity entity = new Entity();

                entity.setCode(code);

                if (Objects.equals("xxx", code)) {

                    //跳过表头

                    continue;

                }

                entity.setNum(Long.parseLong(num));

                entity.setName(name);

                entity.setCreateTime(new Date());

                String index = "index20211111";

                singleInsert2(index, entity);

            }

        } finally {

            LineIterator.closeQuietly(it);

        }

    }

    @Test

    void batchInsert() {

        String filePath = "D:\\express\\20211111.csv";

        LineIterator it = null;

        try {

            it = FileUtils.lineIterator(new File(filePath), "UTF-8");

        } catch (IOException e) {

            e.printStackTrace();

        }

        try {

            int i = 0;

            List<Entity> entities = new ArrayList<>();

            while (it.hasNext()) {

                String line = it.nextLine();

                //System.out.println("line = " + line);

                String[] strArray = line.split(",");

                String code = strArray[6].trim();

                String name = strArray[8].trim();

                String num = strArray[11].trim();

                System.out.println(code + "==" + num);

                if (Objects.equals("xxx", code)) {

                    //跳过表头

                    continue;

                }

                Entity entity = new Entity();

                entity.setCode(code);

                entity.setName(name);

                try {

                    entity.setNum(Long.parseLong(num));

                } catch (NumberFormatException e) {

                    e.printStackTrace();

                    System.out.println("出错的数据" + code + "==" + num);

                }

                entity.setCreateTime(new Date());

                String index = "index20211111";

                //批量插入

                entities.add(entity);

                i++;

                if (i % 10000 == 0) {

                    System.out.println("i = " + i);

                    try {

                        batchInsert2(index, entities);

                    } catch (IOException e) {

                        e.printStackTrace();

                    }

                    //清空已经处理过的list

                    entities.clear();

                    i = 0;

                }

            }

        } finally {

            LineIterator.closeQuietly(it);

        }

    }

    /**

     * 批量速度杠杠的

     *

     * @param index

     * @param entities

     * @throws IOException

     */

    public void batchInsert2(String index, List<Entity> entities) throws IOException {

        BulkRequest bulkRequest = new BulkRequest(index);

        System.out.println("entities.sz = " + entities.size());

        for (Entity org : entities) {

            IndexRequest request = new IndexRequest();

            request.source(JSON.toJSONString(org), XContentType.JSON);

            bulkRequest.add(request);

        }

        restHighLevelClient.bulk(bulkRequest, RequestOptions.DEFAULT);

    }

    /**

     * 数据量大，超级慢

     *

     * @param index

     * @param entity

     */

    public void singleInsert2(String index, Entity entity) {

        IndexRequest request = new IndexRequest(index);

        request.source(JSON.toJSONString(entity), XContentType.JSON);

        try {

            IndexResponse index1 = restHighLevelClient.index(request, RequestOptions.DEFAULT);

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

}

package com.example.demo.entity;

import lombok.Data;

import java.util.Date;

/**

 * @author lhb

 * @date 2021/11/11

 * @since 1.0.0

 */

@Data

public class Entity {

    /**

     * 编码

     */

    private String code;

    /**

     * 名字

     */

    private String name;

    /**

     * 数量

     */

    private Long num;

    private Date createTime;

}

创建索引映射，然后插入数据：

PUT express_to_village20211104

{

  "settings": {

    "number_of_shards": 1,

    "number_of_replicas": 1

  },

  "mappings": {

    "properties": {

      "code": {

        "type": "keyword"

      },

      "name": {

        "type": "keyword"

      },

      "num": {

        "type": "long"

      },

      "createTime": {

        "type": "date"

      }

    }

  }

}

开始分析数据：

GET index20211111/_count

{}

#返回63w数据

{
"count" : 630000,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
}
}

GET index20211111/_search

{

  "query": {

    "constant_score": {

      "filter": {

        "terms": {

          "code": [

            2222,

            1111,

            3333

          ]

        }

      }

    }

  },

  "size": 1,

  "track_total_hits": true,

  "aggs": {

    "per_code": {

      "terms": {

        "field": "code",

        "size": 200

      },

      "aggs": {

        "num": {

          "sum": {

            "field": "num"

          }

        }

      }

    },

    "sum_num": {

      "sum": {

        "field": "num"

      }

    }

  }

}

java读取大文件内容到Elasticsearch分析（手把手教你java处理超大csv文件）的更多相关文章

java读取 500M 以上文件,java读取大文件
java 读取txt,java读取大文件设置缓存大小BUFFER_SIZE ,Config.tempdatafile是文件地址来源博客http://yijianfengvip.blog.163.c ...
java 读取txt,java读取大文件
java 读取txt,java读取大文件 package com.bbcmart.util; import java.io.File;import java.io.RandomAccessFile;i ...
解决java读取大文件内存溢出问题
1. 传统方式:在内存中读取文件内容读取文件行的标准方式是在内存中读取,Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法: Files.readLines(new ...
Java读取大文件的高效率实现
1.概述本教程将演示如何用Java高效地读取大文件.这篇文章是Baeldung (http://www.baeldung.com/) 上“Java——回归基础”系列教程的一部分. 2.在内存中读取 ...
java读取大文件超大文件的几种方法
java 读取一个巨大的文本文件既能保证内存不溢出又能保证性能 import java.io.BufferedReader; import java.io.File; import jav ...
java读取大文件
1 多线程 2 java内存映射读取大文件
Java 读取大文件方法
需求:实际开发中读取文本文件的需求还是很多,如读取两个系统之间FTP发送文件,读取后保存到数据库中或日志文件的数据库中保存等. 为了测试首先利用数据库SQL生成大数据文件. 规则是编号|姓名|手机号 ...
java读取大文本文件
原文:http://blog.csdn.net/k21325/article/details/53886160 小文件当然可以直接读取所有,然后放到内存中,但是当文件很大的时候,这个方法就行不通了,内 ...
Java读取各种文件格式内容
所需的jar包哦也不要太记得了,大家可以搜搜,直接上代码: import java.io.BufferedInputStream; import java.io.File; import java.i ...

随机推荐

[转载]CentOS 7安装配置Samba服务器
假设我们有这样一个场景共享名路径权限SHAREDOC/smb/docs所有人员包括来宾均可以访问RDDOCS/smb/tech仅允许特定组的用户进行读写访问特定组的组名为RD,目前的Alice.J ...
AT5661-[AGC040C]Neither AB nor BA【模型转换】
正题题目链接:https://www.luogu.com.cn/problem/AT5661 题目大意一个包含\(A,B,C\)的序列,每次可以选择相邻的两个除了\(AB\)和\(BA\)的删去. ...
现在有一个长度20的SET,其中每个对象的内容是随机生成的字符串，请写出遍历删除LIST里面字符串含"2"的对象的代码。
现在有一个长度20的SET,其中每个对象的内容是随机生成的字符串,请写出遍历删除LIST里面字符串含"2"的对象的代码. public class RemoveTwo { //le ...
《面试八股文》之 JVM 20卷
微信公众号:moon聊技术关注选择" 星标 ", 重磅干货,第一时间送达! [如果你觉得文章对你有帮助,欢迎关注,在看,点赞,转发] 大家好,我是 moon. <面试八股 ...
Ysoserial Commons Collections2分析
Ysoserial Commons Collections2分析 About Commons Collections2 CC2与CC1不同在于CC2用的是Commons Collections4.0; ...
SpringBoot如何实现定时任务
写在前面 SpringBoot创建定时任务的方式很简单,主要有两种方式:一.基于注解的方式(@Scheduled)二.数据库动态配置.实际开发中,第一种需要在代码中写死表达式,如果修改起来,又得重启会 ...
实战经验分享：使用 PyO3 来构建你的 Python 模块
PyO3 主要用于创建原生 Python 的扩展模块.PyO3 还支持从 Rust 二进制文件运行 Python 代码并与之交互,可以实现 rust 与 Python 代码共存.在一些对性能要求较高的 ...
res目录下的结构
目录 res目录下的结构 drawable开头的文件夹 mipmap开头的文件夹 values开头的文件夹 layout文件夹使用res目录下的资源 res目录下的结构如果你展开res目录看一下, ...
PAT (Basic Level) Practice （中文）1022 D进制的A+B (20分)
1022 D进制的A+B (20分) 输入两个非负 10 进制整数 A 和 B ( ≤ 230 −1),输出 A+B 的 D (1<D≤10)进制数. 输入格式: 输入在一行中依次给出 3 ...
CAD网页Web端显示开发为什么要以WebGIS的思路来开发？
背景在之前的博文CAD图DWG解析WebGIS可视化技术分析总结中讲解了如何把CAD的DWG格式的图纸Web可视化的方案.博文发布后,受到不少同行们的关注,也有不少咨询一些专业问题,其中大家可能疑惑 ...

java读取大文件内容到Elasticsearch分析（手把手教你java处理超大csv文件）

java读取大文件内容到Elasticsearch分析（手把手教你java处理超大csv文件）的更多相关文章

随机推荐

热门专题