Spark存储Parquet数据到Hive，对map、array、struct字段类型的处理

利用Spark往Hive中存储parquet数据，针对一些复杂数据类型如map、array、struct的处理遇到的问题？

为了更好的说明导致问题的原因、现象以及解决方案，首先看下述示例：

-- 创建存储格式为parquet的Hive非分区表

CREATE EXTERNAL TABLE `t1`(

`id` STRING,

`map_col` MAP<STRING, STRING>,

`arr_col` ARRAY<STRING>,

`struct_col` STRUCT<A:STRING,B:STRING>)

STORED AS PARQUET

LOCATION '/home/spark/test/tmp/t1';

-- 创建存储格式为parquet的Hive分区表

CREATE EXTERNAL TABLE `t2`(

`id` STRING,

`map_col` MAP<STRING, STRING>,

`arr_col` ARRAY<STRING>,

`struct_col` STRUCT<A:STRING,B:STRING>)

PARTITIONED BY (`dt` STRING)

STORED AS PARQUET

LOCATION '/home/spark/test/tmp/t2';

分别向t1、t2执行insert into（insert overwrite..select也会导致下列问题）语句，列map_col都存储为空map：

insert into table t1 values(1,map(),array('1,1,1'),named_struct('A','1','B','1'));

insert into table t2 partition(dt='20200101') values(1,map(),array('1,1,1'),named_struct('A','1','B','1'));

t1表正常执行，但对t2执行上述insert语句时，报如下异常：

Caused by: parquet.io.ParquetEncodingException: empty fields are illegal, the field should be ommited completely instead

at parquet.io.MessageColumnIO$MessageColumnIORecordConsumer.endField(MessageColumnIO.java:244)

    at org.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriter.writeMap(DataWritableWriter.java:241)

    at org.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriter.writeValue(DataWritableWriter.java:116)

    at org.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriter.writeGroupFields(DataWritableWriter.java:89)

    at org.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriter.write(DataWritableWriter.java:60)

    ... 23 more

t1和t2从建表看唯一的区别就是t1不是分区表而t2是分区表，仅仅从报错信息是无法看出表分区产生这种问题的原因，看看源码是做了哪些不同的处理（这里为了方便，笔者这里直接给出分析这个问题的源码思路图）：

t1底层存储指定的是ParquetFilemat，t2底层存储指定的是HiveFileFormat。这里主要分析一下存储空map到t2时，为什么出问题，以及如何处理，看几个核心的代码（具体的可以参考上述源码图）：

从抛出的异常信息empty fields are illegal，关键看empty fields在哪里抛出，做了哪些处理，这要看MessageColumnIO中startField和endField是做了哪些处理：

public void startField(String field, int index) {

  try {

  if (MessageColumnIO.DEBUG) {

    this.log("startField(" + field + ", " + index + ")");

  }

  this.currentColumnIO = ((GroupColumnIO)this.currentColumnIO).getChild(index);

  //MessageColumnIO中，startField方法中首先会将emptyField设置为true

  this.emptyField = true;

  if (MessageColumnIO.DEBUG) {

      this.printState();

  }

  } catch (RuntimeException var4) {

 throw new ParquetEncodingException("error starting field " + field + " at " + index, var4);

    }

}

//endField方法中会针对emptyField是否为true来决定是否抛出异常

public void endField(String field, int index) {

   if (MessageColumnIO.DEBUG) {

       this.log("endField(" + field + ", " + index + ")");

   }

   this.currentColumnIO = this.currentColumnIO.getParent();

   //如果到这里仍为true，则抛异常

   if (this.emptyField) {

       throw new ParquetEncodingException("empty fields are illegal, the field should be ommited completely instead");

     } else {

         this.fieldsWritten[this.currentLevel].markWritten(index);

         this.r[this.currentLevel] = this.currentLevel == 0 ? 0 : this.r[this.currentLevel - 1];

        if (MessageColumnIO.DEBUG) {

            this.printState();

        }

    }

}

针对map做处理的一些源码：

private void writeMap(final Object value, final MapObjectInspector inspector, final GroupType type) {

    // Get the internal map structure (MAP_KEY_VALUE)

    GroupType repeatedType = type.getType(0).asGroupType();

    recordConsumer.startGroup();

    recordConsumer.startField(repeatedType.getName(), 0);

    Map<?, ?> mapValues = inspector.getMap(value);

    Type keyType = repeatedType.getType(0);

    String keyName = keyType.getName();

    ObjectInspector keyInspector = inspector.getMapKeyObjectInspector();

    Type valuetype = repeatedType.getType(1);

    String valueName = valuetype.getName();

    ObjectInspector valueInspector = inspector.getMapValueObjectInspector();

    for (Map.Entry<?, ?> keyValue : mapValues.entrySet()) {

      recordConsumer.startGroup();

      if (keyValue != null) {

        // write key element

        Object keyElement = keyValue.getKey();

        //recordConsumer此处对应的是MessageColumnIO中的MessageColumnIORecordConsumer

        //查看其中的startField和endField的处理

        recordConsumer.startField(keyName, 0);

        //查看writeValue中对原始数据类型的处理，如int、boolean、varchar

        writeValue(keyElement, keyInspector, keyType);

        recordConsumer.endField(keyName, 0);

        // write value element

        Object valueElement = keyValue.getValue();

        if (valueElement != null) {

          //同上

          recordConsumer.startField(valueName, 1);

          writeValue(valueElement, valueInspector, valuetype);

          recordConsumer.endField(valueName, 1);

        }

      }

      recordConsumer.endGroup();

    }

    recordConsumer.endField(repeatedType.getName(), 0);

    recordConsumer.endGroup();

}

private void writePrimitive(final Object value, final PrimitiveObjectInspector inspector) {

  //value为null，则return

  if (value == null) {

    return;

  }

  switch (inspector.getPrimitiveCategory()) {

    //PrimitiveCategory为VOID，则return

    case VOID:

      return;

    case DOUBLE:

      recordConsumer.addDouble(((DoubleObjectInspector) inspector).get(value));

break;

//下面是对double、boolean、float、byte、int等数据类型做的处理，这里不在贴出

....

可以看到在startFiled中首先对emptyField设置为true，只有在结束时比如endField方法中将emptyField设置为false，才不会抛出上述异常。而存储字段类型为map时，有几种情况会导致这种异常的发生，比如map为空或者map的key为null。

这里只是以map为例，对于array、struct都有类似问题，看源码HiveFileFormat -> DataWritableWriter对这三者处理方式类似。类似的问题，在Hive的issue中https://issues.apache.org/jira/browse/HIVE-11625也有讨论。

分析出问题解决就比较简单了，以存储map类型字段为例：

1. 如果无法改变建表schema，或者存储时底层用的就是HiveFileFormat

如果无法确定存储的map字段是否为空，存储之前判断一下map是否为空，可以写个udf或者用size判断一下，同时要保证key不能为null

2. 建表时使用Spark的DataSource表

-- 这种方式本质上还是用ParquetFileFormat，并且是内部表，生产中不建议直接使用这种方式

CREATE TABLE `test`(

`id` STRING,

`map_col` MAP<STRING, STRING>,

`arr_col` ARRAY<STRING>,

`struct_col` STRUCT<A:STRING,B:STRING>)

USING parquet

OPTIONS(`serialization.format` '1');

3. 存储时指定ParquetFileFormat

比如，ds.write.format("parquet").save("/tmp/test")其实像这类问题，相信很多人都遇到过并且解决了。这里是为了给出当遇到问题时，解决的一种思路。不仅要知道如何解决，更要知道发生问题是什么原因导致的、如何避免这种问题、解决了问题是怎么解决的（为什么这种方式能解决，有没有更优的方法）等。

近期文章：

Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件

Spark SQL

Apache Hive

关注微信公众号：大数据学习与分享，获取更对技术干货

Spark存储Parquet数据到Hive，对map、array、struct字段类型的处理的更多相关文章

spark 将dataframe数据写入Hive分区表
从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API.Da ...
spark读取mongodb数据写入hive表中
一环境: spark-: hive-; scala-; hadoop--cdh-; jdk-1.8; mongodb-2.4.10; 二.数据情况: MongoDB数据格式{ "_i ...
【原创】大叔问题定位分享（16）spark写数据到hive外部表报错ClassCastException: org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormat cannot be cast to org.apache.hadoop.hive.ql.io.HiveOutputFormat
spark 2.1.1 spark在写数据到hive外部表(底层数据在hbase中)时会报错 Caused by: java.lang.ClassCastException: org.apache.h ...
【大数据】Hive学习笔记
第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表, ...
spark 性能优化数据倾斜故障排除
版本:V2.0 第一章 Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围 ...
Spark调优数据倾斜
1. Spark数据倾斜问题 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题. 例如,reduce ...
spark调优——数据倾斜
Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题. 例如,reduce点一共要处理100万条数据,第 ...
利用SparkSQL(java版)将离线数据或实时流数据写入hive的用法及坑点
1. 通常利用SparkSQL将离线或实时流数据的SparkRDD数据写入Hive,一般有两种方法.第一种是利用org.apache.spark.sql.types.StructType和org.ap ...
Spark操作parquet文件
package code.parquet import java.net.URI import org.apache.hadoop.conf.Configuration import org.apac ...

随机推荐

虚拟环境及venv和virtualenv
一.虚拟环境概述 Python应用程序通常会使用不在标准库内的软件包和模块.应用程序有时需要特定版本的库,修复特定的错误,或者可以使用库的过时版本的接口编写应用程序. 这说明一个Python安装可能无 ...
windows本地破解用户口令
实验所属系列:操作系统安全实验对象: 本科/专科信息安全专业相关课程及专业:信息网络安全概论.计算机网络实验时数(学分):2学时实验类别:实践实验类实验目的 1.了解Windows2000/ ...
Qt基础之菜单栏
本篇介绍Qt菜单栏相关操作,分为三部分:1.菜单栏相关的类介绍:2.系统菜单的生成和响应:3.弹出菜单的生成和响应:菜单栏通常只有以QMainWindow为基类的程序中才用到,以QWidget为基类的 ...
1，github更新问题
赶去吃饭,不排版了. 一:上传 1,新建仓库通过下面代码克隆仓库到本地: git clone https://github.com/ndnmonkey/zhihu.git 把文件放到克隆到本地的文件 ...
【转】jps 命令使用
jps(Java Virtual Machine Process Status Tool)是JDK1.5提供的一个显示当前所有java进程pid的命令,简单实用,非常适合在linux/unix平台上简 ...
【JVM第四篇--运行时数据区】堆
写在前面的话:本文是在观看尚硅谷JVM教程后,整理的学习笔记.其观看地址如下:尚硅谷2020最新版宋红康JVM教程一.堆的概述 JVM的运行时数据区如下: 一个Java程序运行起来对应着一个进程(操 ...
debian修改crontab默认编辑器为vim
debian终端下默认编辑器为nano,比如crontab -e就会打开nano,这个编辑器用起来很不习惯,想修改为vim,当然,你的debian系统必须先安装vim.如果已经安装vim,请输入如下命 ...
贼厉害，手撸的 SpringBoot 缓存系统，性能杠杠的！
一.通用缓存接口二.本地缓存三.分布式缓存四.缓存"及时"过期问题五.二级缓存缓存是最直接有效提升系统性能的手段之一.个人认为用好用对缓存是优秀程序员的必备基本素质. 本 ...
打乱Map key - value的对应顺序
应用场景:对于考试试卷选择题选项的乱序对应问题,防止考生作弊,每个人的题目都是不一样的选项顺序. package com.muyuan.platform.elearning.util; import ...
python-Requests模块的使用
1. Requests简介 Requests模块是一个用于网络访问的模块,其实类似的模块有很多,比如urllib,urllib2,httplib,httplib2,他们基本都提供相似的功能,那为什么R ...

Spark存储Parquet数据到Hive，对map、array、struct字段类型的处理

Spark存储Parquet数据到Hive，对map、array、struct字段类型的处理的更多相关文章

随机推荐

热门专题