使用JAVA API 解析ORC File

orc File 的解析过程中，使用FileInputFormat的getSplits(conf, 1)函数，

然后使用 RecordReaderreader = in.getRecordReader(splits[0], conf, Reporter.NULL);

解析ORCfile，发现当ORC 文件的比较大的时候，超过256M时，不能读取所有的数据。

比如一个ORC 文件有300M，共有180万的条数据，使用上面的方法只能读取出110万的数据，剩下70万的数据读取不出。

使用的读取示例源码如下：

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hive.ql.io.orc.*;

import org.apache.hadoop.hive.ql.io.orc.RecordReader;

import org.apache.hadoop.hive.serde2.SerDeException;

import org.apache.hadoop.hive.serde2.objectinspector.StructField;

import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;

import org.apache.hadoop.mapred.*;

import org.apache.orc.TypeDescription;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import java.util.Properties;

    public void readOrcFile(String fileName) throws SerDeException, IOException {

        JobConf conf = new JobConf(hadoopConf);

        Path orcFilePath = new Path(fileName);

        StringBuilder allColumns = new StringBuilder();

        StringBuilder allColumnTypes = new StringBuilder();

        Properties p = new Properties();

        p.setProperty("columns", "url,word,freq,weight");

        p.setProperty("columns.types", "string:string:string:string");

        OrcSerde serde = new OrcSerde();

        serde.initialize(conf, p);

        StructObjectInspector inspector = (StructObjectInspector) serde.getObjectInspector();

        OrcInputFormat in = new OrcInputFormat();

        FileInputFormat.setInputPaths(conf, orcFilePath);

        InputSplit[] splits = in.getSplits(conf, 1);

        System.out.println("splits.length==" + splits.length);

        RecordReader reader = in.getRecordReader(splits[0], conf, Reporter.NULL);

        Long count = 0 L;

        while (reader.next(key, value)) {

             count ++;

        }

        reader.close();

    }

org.apache.hadoop.mapred.InputFormat接口的getSplits方法定义如下：

InputSplit[] getSplits(JobConf job,

                       int numSplits)

                       throws IOException

其中numSplits参数的含义时期望得到分片数，如上的例子中，期望输入文件的分片为1个，如果ORC文件有多个分片则会被合并成一个分片。但是hdfs的中设置的一个分片最大为256M，所以合并成1个分片就会少300-256=44M的数据，造成了上面的问题。

如果 numSplits 参数的值设置为小于0的负数，则会按照ORC File的正常的 stripe个数生成split。

InputSplit[] splits = in.getSplits(conf, -1) 得到的 splits 个数是6个，6个splits中记录数是预期

中的180条。

(二)使用 org.apache.hadoop.hive.ql.io.orc.Reader 类读取ORC文件

可以通过reader.getSchema(); // 获取ORC文件的schema文件。

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hive.ql.io.orc.*;

import org.apache.hadoop.hive.ql.io.orc.RecordReader;

import org.apache.hadoop.hive.serde2.SerDeException;

import org.apache.hadoop.hive.serde2.objectinspector.StructField;

import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;

import org.apache.hadoop.mapred.*;

import org.apache.orc.TypeDescription;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import java.util.Properties;

    public void readOrc(String INPUT) throws IOException {

        Configuration conf = new Configuration();

        Path file_in = new Path(INPUT);

        Reader reader = OrcFile.createReader(FileSystem.getLocal(conf), file_in);

        TypeDescription schema = reader.getSchema();  // 获取ORC文件的schema文件

        System.out.println(schema.toJson());

        System.out.println(schema.toString());

        System.out.println("--------------------------------");

        StructObjectInspector inspector = (StructObjectInspector) reader.getObjectInspector();

        RecordReader records = reader.rows();

        Object row = null;

        Long count = 0L;

        while (records.hasNext()) {

            row = records.next(row);

      //    System.out.println(row.toString());

            count++;

            List value_lst = inspector.getStructFieldsDataAsList(row);

        }

        System.out.println("--------total line=" + count);

    }

使用JAVA API 解析ORC File的更多相关文章

java微信开发API解析（二）-获取消息和回复消息
java微信开发API解析(二)-获取消息和回复消息说明 * 本演示样例依据微信开发文档:http://mp.weixin.qq.com/wiki/home/index.html最新版(4/3/20 ...
json-lib-2.4-jdk15.jar所需全部JAR包.rar java jsoup解析开彩网api接口json数据实例
json-lib-2.4-jdk15.jar所需全部JAR包.rar java jsoup解析开彩网api接口json数据实例 json-lib-2.4-jdk15.jar所需全部JAR包.rar ...
Hive存储格式之ORC File详解，什么是ORC File
目录概述文件存储结构 Stripe Index Data Row Data Stripe Footer 两个补充名词 Row Group Stream File Footer 条纹信息列统计元 ...
Java XML解析工具 dom4j介绍及使用实例
Java XML解析工具 dom4j介绍及使用实例 dom4j介绍 dom4j的项目地址:http://sourceforge.net/projects/dom4j/?source=directory ...
Java API 快速速查宝典
Java API 快速速查宝典作者:明日科技,陈丹丹,李银龙,王国辉著出版社:人民邮电出版社出版时间:2012年5月 Java编程的最基本要素是方法.属性和事件,掌握这些要素,就掌握了解决实际 ...
Java XML解析器
使用Apache Xerces解析XML文档一.技术概述在用Java解析XML时候,一般都使用现成XML解析器来完成,自己编码解析是一件很棘手的问题,对程序员要求很高,一般也没有专业厂商或者开源组 ...
Java数据解析之XML
文章大纲一.XML解析介绍二.Java中XML解析介绍三.XML解析实战四.项目源码下载一.XML解析介绍最基础的XML解析方式有DOM和SAX,DOM和SAX是与平台无关的官方解析方式 ...
源生API解析XML文档与dom4j解析XML文档
一.XML语言 XML是一种可扩展的标记语言,是一种强类型的语言,类似HTML(超文本标记语言,是一种弱类型的语言).XML是一种通用的数据交换格式(关系型数据库),综上所诉:XML可以传输数据,也可 ...
Hadoop 系列（三）Java API
Hadoop 系列(三)Java API <dependency> <groupId>org.apache.hadoop</groupId> <artifac ...

随机推荐

XXE总结
0x00 目录 0x01 XML基础定义:一种标记电子文件使其具有结构性的标记语言,可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. XML文档结构包括XML声明.D ...
Linux入门练习操作命令
查看目录命令 1. 显示目录下所有文件 2.显示所有文件,包括隐藏文件创建目录命令 1.在改目录下创建文件夹“practise” 切换目录 1.切换到指定的目录 2.切换到上一级目录 3.还在当前目 ...
barcode(index)
在很多情况下,我们需要把多个样本混合在一起,在同一个通道(lane)里完成测序.像转录组测序.miRNA测序.lncRNA测序.ChIP测序等等,通常每个样本所需要的数据量都比较少,远少于HiSeq一 ...
java20（判断是否为会员）
1.不确定数组是哪个类型是,将数据类型换成类名 2.记得将判断的参数传到方法中 3.用到类名的: 创建对象时创建未知类型的数组时 4.创建的对象所用到的名字,体重,判断(boolean isvip ...
json（原生态）
什么是 JSON ? JSON 指的是 JavaScript 对象表示法(JavaScript Object Notation) JSON 是轻量级的文本数据交换格式 JSON 独立于语言 * JSO ...
Django框架之验证码生成示例
一.生成随机颜色的图片 1)前端代码展示 <!DOCTYPE html> <html lang="en"> <head> <meta ch ...
2019.01.23 hdu3377 Plan（轮廓线dp）
传送门题意简述:给一个n*m的带权矩阵,求从左上角走到右下角的最大分数,每个格子只能经过最多一次,n,m≤9n,m\le9n,m≤9. 思路: 考虑轮廓线dpdpdp,但这道题并没有出现回路的限制因 ...
win10 VMware ubuntu12.04 虚拟机不能上网【已解决】
参考 :链接. 本机环境:Ubuntu 12.04 无线上网(连接手机热点). 主机:Win 10. 步骤1:VMware安装运行后,默认会有3个虚拟网络,VMnet0,VMnet1,VMnet8. ...
pyinstaller基本操作
pyinstaller 打包错误http://www.fmwei.com/linux/pyinstaller-lib-error.html 只需要复制python安装目录下的动态库到系统地动态库目录即 ...
TCP粘包问题分析和解决（全）
TCP通信粘包问题分析和解决(全) 在socket网络程序中,TCP和UDP分别是面向连接和非面向连接的.因此TCP的socket编程,收发两端(客户端和服务器端)都要有成对的socket,因此,发送 ...

使用JAVA API 解析ORC File

使用JAVA API 解析ORC File

使用JAVA API 解析ORC File的更多相关文章

随机推荐

热门专题