解决hue/hiveserver2对于hive date类型显示为NULL的问题

用户报在Hue中执行一条sql：select admission_date, discharge_date,birth_date from hm_004_20170309141149.inpatient_visit limit 20; 返回的结果中date类型的列全部显示为null，可是在hive客户端中能正常显示。

验证一下：beeline -u jdbc:hive2://0.0.0.0:10000 -e "select admission_date, discharge_date,birth_date from hm_004_20170309141149.inpatient_visit limit 20;"

怀疑是hiveserver2的问题，可查询另一个包含date的表，却显示正常：select part_dt from default.kylin_sales limit 50;

于是怀疑是serde的问题，hm_004_20170309141149.inpatient_visit用的是org.openx.data.jsonserde.JsonSerDe，default.kylin_sales用的是TextInputFormat.

这个JsonSerDe看着有点怪，一查果然是第三方的，同事之前引入。已向开发者报问题：https://github.com/rcongiu/Hive-JSON-Serde/issues/187

官方自带的是org.apache.hive.hcatalog.data.JsonSerDe(https://cwiki.apache.org/confluence/display/Hive/SerDe), 位于$HIVE_HOME/hcatalog/share/hcatalog/hive-hcatalog-core-1.2.1.jar，

用此jar测试：

CREATE EXTERNAL TABLE `default.inpatient_visit`(

  `age_m` int COMMENT 'from deserializer',

  `discharge_date` date COMMENT 'from deserializer',

  `address_code` string COMMENT 'from deserializer',

  `admission_date` date COMMENT 'from deserializer',

  `visit_dept_name` string COMMENT 'from deserializer',

  `birth_date` date COMMENT 'from deserializer',

  `outcome` string COMMENT 'from deserializer',

  `age` int COMMENT 'from deserializer')

ROW FORMAT SERDE

  'org.apache.hive.hcatalog.data.JsonSerDe'

STORED AS INPUTFORMAT

  'org.apache.hadoop.mapred.TextInputFormat'

OUTPUTFORMAT

  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

LOCATION

  'hdfs://xxxx/user/hive/warehouse/xx.db/inpatient_visit';

本地测试beeline -u jdbc:hive2://0.0.0.0:10000 -e "add jar /home/work/hive/hcatalog/share/hcatalog/hive-hcatalog-core-1.2.1.jar;select admission_date, discharge_date,birth_date from default.inpatient_visit limit 20;"

在Hue中测试：

【测试系统自带JsonSerDe是否功能一样】

CREATE TABLE json_nested_test (

    count string,

    usage string,

    pkg map<string,string>,

    languages array<string>,

    store map<string,array<map<string,string>>>)

ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'

STORED AS TEXTFILE;

遇到个报错：

-- ::, WARN  [main]: data.JsonSerDe (JsonSerDe.java:deserialize()) - Error [java.io.IOException: Start of Array expected] parsing json text [{"count":,"usage":,"pkg":{"weight":,"type":"apple"},"languages":["German","French","Italian"],"store":{"fruit":[{"weight":,"type":"apple"},{"weight":,"type":"pear"}]}}].

-- ::, ERROR [main]: CliDriver (SessionState.java:printError()) - Failed with exception java.io.IOException:org.apache.hadoop.hive.serde2.SerDeException: java.io.IOException: Start of Array expected

java.io.IOException: org.apache.hadoop.hive.serde2.SerDeException: java.io.IOException: Start of Array expected

        at org.apache.hadoop.hive.ql.exec.FetchOperator.getNextRow(FetchOperator.java:)

        at org.apache.hadoop.hive.ql.exec.FetchOperator.pushRow(FetchOperator.java:)

        at org.apache.hadoop.hive.ql.exec.FetchTask.fetch(FetchTask.java:)

        at org.apache.hadoop.hive.ql.Driver.getResults(Driver.java:)

        at org.apache.hadoop.hive.cli.CliDriver.processLocalCmd(CliDriver.java:)

        at org.apache.hadoop.hive.cli.CliDriver.processCmd(CliDriver.java:)

        at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:)

        at org.apache.hadoop.hive.cli.CliDriver.executeDriver(CliDriver.java:)

        at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:)

        at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:)

        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:)

        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:)

        at java.lang.reflect.Method.invoke(Method.java:)

        at org.apache.hadoop.util.RunJar.run(RunJar.java:)

        at org.apache.hadoop.util.RunJar.main(RunJar.java:)

Caused by: org.apache.hadoop.hive.serde2.SerDeException: java.io.IOException: Start of Array expected

        at org.apache.hive.hcatalog.data.JsonSerDe.deserialize(JsonSerDe.java:)

        at org.apache.hadoop.hive.ql.exec.FetchOperator.getNextRow(FetchOperator.java:)

        ...  more

Caused by: java.io.IOException: Start of Array expected

        at org.apache.hive.hcatalog.data.JsonSerDe.extractCurrentField(JsonSerDe.java:)

        at org.apache.hive.hcatalog.data.JsonSerDe.extractCurrentField(JsonSerDe.java:)

        at org.apache.hive.hcatalog.data.JsonSerDe.populateRecord(JsonSerDe.java:)

        at org.apache.hive.hcatalog.data.JsonSerDe.deserialize(JsonSerDe.java:)

        ...  more

经过多轮测试（具体测试过程见：http://www.cnblogs.com/aprilrain/p/6916359.html），发现这个SerDe对于复杂些的嵌套会报此错，例如map<string,array<string>>

CREATE TABLE s6 (

    store map<string,array<string>>

)

ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'

STORED AS TEXTFILE;

load data local inpath '/home/work/s6.txt' overwrite into table s6;

select * from s6;

6s.txt的内容

{"store":{"fruit":["weight","8","type","apple"]}}

{"store":{"fruit":["weight","9","type","orange"]}}

向社区报了一个issue: https://issues.apache.org/jira/browse/HIVE-16526

另外还有问题：不支持数据文件中的空行：https://issues.apache.org/jira/browse/HIVE-15475，见下面的例子

org.openx.data.jsonserde.JsonSerDe 不支持空行的例子：

CREATE TABLE json_nested_test_openx (

    count string,

    usage string,

    pkg map<string,string>,

    languages array<string>,

    store map<string,array<map<string,string>>>)

ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'

STORED AS TEXTFILE;

hive> select pkg['weight'],languages[],store['fruit'][]['type'] from json_nested_test_openx;

OK

Failed with exception java.io.IOException:org.apache.hadoop.hive.ql.metadata.HiveException: Error evaluating store['fruit'][]['type']

解决：以上错误是由于数据文件的最后一行多了一个空行，去掉空行即可解决。

解决hue/hiveserver2对于hive date类型显示为NULL的问题的更多相关文章

mybaits中date类型显示时分秒(orcle数据库)
<insert id="insert" parameterType="daSysLoginLog"> insert into DA_SYS_LOGI ...
解决Hue/hiveserver2报错：java.io.IOException: Job status not available
sql是:select count(distinct col) from db.table; 排查过程中遇到过几个不同的报错: 1. beeline -u jdbc:hive2://0.0.0.0:1 ...
解决nodejs中json序列化时Date类型默认为UTC格式
在nodejs中,json序列化时Date类型时,默认转为UTC格式. 如下图上面只是一个例子,下面我用一个更具体化的例子来展示一个这个情况,我们在开发WEB项目中,经常用到Express组件, 我 ...
解决nodejs中json序列化时Date类型为UTC格式
在nodejs中,json序列化时Date类型时,默认转为UTC格式. 如下图 zhupengfei@DESKTOP-HJASOE3 MINGW64 /d/MyProject/exp2 $ node ...
oracle10g获取Date类型字段无时分秒解决办法！
一般的数据库中,DATE字段仅仅表示日期,不包括日期信息,而Oracle数据库中的DATE数据类型是包括日期.时间的,对于不同的Oracle jdbc驱动版本,对于该问题的处理都有些区别. 最近使用 ...
java web中日期Date类型在页面中格式化显示的三种方式
一般我们经常需要在将服务器端的Date类型,传到页面进行显示,这就涉及到一个如何格式化显示Date类型的问题,一般我们有三种方式进行: 1)在服务端使用SimpleDateFormat等类格式化成字符 ...
SpringMVC解决@ResponseBody返回Json的Date日期类型的转换问题
在做项目的时候,发现后台把Date类型的属性以json字符串的形式返回,前台拿不到转换后的日期格式,始终响应回去的都是long类型时间戳. 查阅资料之后找到解决方法: 方法一(在springmvc的x ...
spring boot @ResponseBody转换JSON 时 Date 类型处理方法，Jackson和FastJson两种方式,springboot 2.0.9配置fastjson不生效官方解决办法
spring boot @ResponseBody转换JSON 时 Date 类型处理方法 ,这里一共有两种不同解析方式(Jackson和FastJson两种方式,springboot我用的1.x的版 ...
spark读写Oracle、hive的艰辛之路（二）-Oracle的date类型
近期又有需求为:导入Oracle的表到hive库中: 关于spark读取Oracle到hive有以下两点需要说明: 1.数据量较小时,可以直接使用spark.read.jdbc(orclUrl,tab ...

随机推荐

VM ESXI 服务器虚拟化资料积累
编者按: 公司业务需求,公有云平台不能满足部署mac系统环境的需求,故租赁或托管物理机自行虚拟化,使用的工具就是VM ESXI .从部署到应用都没有遇到过什么问题,但是在今天发生VMware vSph ...
【洛谷】P4643 【模板】动态dp
题解在冬令营上听到冬眠的东西,现在都是板子了猫锟真的是好毒瘤啊(雾) (立个flag,我去thusc之前要把WC2018T1乱搞过去= =) 好的,我们可以参考猫锟的动态动态dp的课件,然后你发现你 ...
001 Anaconda的介绍与安装
1.官网 www.continuum.io 2.ananconda的版本同一个版本下对应一个python3与python2,在这里下载使用python 2.7的版本. 3.概述 Anaconda是一 ...
thinphp中auth认证方法使用
一.获取Auth类1.ThinkPHP3.1.3完整版:http://www.thinkphp.cn/down/338.html2.OneThink1.0正式版:https://github.com/ ...
ref:Mysql授权远程登陆
ref:https://blog.csdn.net/qq_26710805/article/details/79776897 在Windows环境上操作.步骤如下: 1. 打开cmd窗口,登陆mysq ...
2017-2018-1 20179202《Linux内核原理与分析》第十周作业
一.设备与模块 1.设备类型块设备:随机访问设备中的内容,通过块设备结点访问,通常被挂载为文件系统字符设备:不可寻址,仅提供数据的流式访问,通过字符设备结点访问,应用程序通过直接访问设备节点与字符 ...
C# Zip解压缩，规避 [content_types].xml 文件
使用 System.IO.Packaging.Package 进行压缩和解压时,会自动生成 [content_types].xml 文件. The Structure of the [Content_ ...
JAVA语言中的运算符和表达式
JAVA——运算符按运算符要求的运算符个数可分为一元.二元.三元运算符: 一元运算符有一个操作数:如正数或者负数前面的“+”.“—”,和自增“++”.自减“- -”. 二元运算符有两个操作数:如除法 ...
CentOS 7下MySQL5.7.23的服务配置参数测试
CentOS 7默认安装MySQL5.7.23,服务管理发生了变化,从sysvinit(service mysql start)变化为systemd(systemctl start mysqld.se ...
python orm字段解析
null # 是否可以为空 default # 默认值 primary_key # 主键 db_column # 列名 db_index # 索引(db_index=True) unique # 唯一 ...

解决hue/hiveserver2对于hive date类型显示为NULL的问题

解决hue/hiveserver2对于hive date类型显示为NULL的问题的更多相关文章

随机推荐

热门专题