spark1.2.0版本SparkSQL使用parquet类型注意事项

在Spark1.2.0版本中是用parquet存储类型时注意事项：

sql语句：

select * from order_created_dynamic_partition_parquet;

在spark-sql中执行结果：

2014-05 [B@4621484a     [B@3311163e

2014-05 [B@70ab973a     [B@11559aa0

2014-05 [B@b1a8744      [B@7aa6870d

2014-05 [B@765e2d02     [B@20dd1b04

2014-05 [B@1418b477     [B@61effaef

在beeline中执行结果：

报错：

Error: java.lang.ClassCastException: [B cannot be cast to java.lang.String (state=,code=0)

在hive中执行结果：

ordernumber     event_time      event_month

10703007267488  2014-05-01 06:01:12.334+01      2014-05

10101043505096  2014-05-01 07:28:12.342+01      2014-05

10103043509747  2014-05-01 07:50:12.33+01       2014-05

10103043501575  2014-05-01 09:27:12.33+01       2014-05

10104043514061  2014-05-01 09:03:12.324+01      2014-05

可以通过设置

set spark.sql.parquet.binaryAsString=true

来解决spark-sql以及beeline中的问题，在spark1.2.0版本中该参数默认值为false；

说明：Some other Parquet-producing systems, in particular Impala and older versions of Spark SQL, do not differentiate between binary data and strings when writing out the Parquet schema. This flag tells Spark SQL to interpret binary data as a string to provide compatibility with these systems.

spark1.2.0版本SparkSQL使用parquet类型注意事项的更多相关文章

Spark-1.6.0中的Sort Based Shuffle源码解读
从Spark-1.2.0开始,Spark的Shuffle由Hash Based Shuffle升级成了Sort Based Shuffle.即Spark.shuffle.manager从Hash换成了 ...
搭建Hadoop2.6.0+Spark1.1.0集群环境
前几篇文章主要介绍了单机模式的hadoop和spark的安装和配置,方便开发和调试.本文主要介绍,真正集群环境下hadoop和spark的安装和使用. 1. 环境准备集群有三台机器: master: ...
spark1.1.0下使用SparkSQL
spark1.1.0的安装参见http://blog.csdn.net/bluejoe2000/article/details/41391407 安装了spark之后,可以在 shell中执行Spar ...
Apache Hudi 0.6.0版本重磅发布
1. 下载信息源码:Apache Hudi 0.6.0 Source Release (asc, sha512) 二进制Jar包:nexus 2. 迁移指南如果您从0.5.3以前的版本迁移至0.6 ...
spark 1.6.0 安装与配置（spark1.6.0、Ubuntu14.04、hadoop2.6.0、scala2.10.6、jdk1.7）
前几天刚着实研究spark,spark安装与配置是入门的关键,本人也是根据网上各位大神的教程,尝试配置,发现版本对应最为关键.现将自己的安装与配置过程介绍如下,如有兴趣的同学可以尝试安装.所谓工欲善其 ...
Apache Hudi 0.7.0版本重磅发布
重点特性 1. Clustering 0.7.0版本中支持了对Hudi表数据进行Clustering(对数据按照数据特征进行聚簇,以便优化文件大小和数据布局),Clustering提供了更灵活地方式增 ...
Mirantis OpenStack 8.0 版本大概性分析
作为 OpenStack 领域标杆性企业之一的 Mirantis 在2016年3月初发布了最新的 MOS 8.0 版本.本文试着基于公开资料进行一些归纳分析. 1. 版本概况 1.1 概况社区版本: ...
微信快速开发框架（六）-- 微信快速开发框架（WXPP QuickFramework）V2.0版本上线--源码已更新至github
4月28日,已增加多媒体上传及下载API,对应MediaUploadRequest和MediaGetRequest ------------------------------------------ ...
RDIFramework.NET ━ .NET快速信息化系统开发框架钜献 V3.0 版本强势发布
继上个版本“RDIFramework.NET V2.9版本”的推出,受到了重多客户的认可与选择,V2.9版本是非常成功与稳定的版本,感谢大家的认可与长期以来的关注与支持.V3.0版本在V2.9版本的基 ...

随机推荐

Redis学习手册(服务器管理)
转:http://www.cnblogs.com/stephen-liu74/archive/2012/02/27/2369480.html 一.概述: Redis在设计之初就被定义为长时间不间断运行 ...
openstack（liberty）: devstack之stack.sh分析
学习openstack,从devstack入手,是个不错的选择.devstack中,首先需要分析stack.sh都做了些什么! 这里面涉及到了很多shell的基础知识.我就做个简单的梳理,方便后续查阅 ...
【shell】while与until循环
while循环 #!/bin/bash i=1 s=0 while [ $i -le 100 ] do s=$(($s+$i)) ##变量运算 i=$(($i+1)) done echo " ...
VS2010打开项目时，出现“已经在解决方案中打开了具有该名称的项目”问题的解决方案
用的是VSS代码管理.一打开解决方案就看到有个类库不能加载. 解决方法: 直接右键编辑无法加载的类库,或者记事本编辑有问题类库的csproj文件, 删除以下几行: <SccProjectName ...
ApiCloud重新定义移动应用开发
http://www.apicloud.com/ 为APP开发者提供云端的API服务和数据存储服务,动态生成RESTful API,支持在线NoSQL数据表设计.API调试及用量分析:同时提供推送.云 ...
第一次正式java web开发项目的总结
去年下半年到现在,因为公司人员流动,也有好几个新进的员工分给我来带领,也有刚从学校出来的,在和他们交流的过程中,不由的想起自己刚刚进入这行的一些感想. 记得自己当初写过一篇总结的,我想这些对于刚出校门 ...
1. Netty解决Tcp粘包拆包
一. TCP粘包问题实际发送的消息, 可能会被TCP拆分成很多数据包发送, 也可能把很多消息组合成一个数据包发送粘包拆包发生的原因 (1) 应用程序一次写的字节大小超过socket发送缓冲区大小 ...
working copy locked 问题
解法 1 : 右键svn-->clean up 解法 2 : 被lock的文件夹进入控制台 del lock /q/s [转载解法] SVN 本地更新时,由于一些操作中断更新,如磁盘空间不够 ...
Spark 1.4连接mysql诡异的问题及解决
在spark-default.conf文件中明明配置了mysql的数据源连接随后启动spark-shell 执行如下测试代码: import org.apache.spark.{SparkConte ...
ADF_Database Develop系列3_通过UML进行数据库开发之将Database Diagram转为Class Diagram
2013-05-01 Created By BaoXinjian

spark1.2.0版本SparkSQL使用parquet类型注意事项

spark1.2.0版本SparkSQL使用parquet类型注意事项的更多相关文章

随机推荐

热门专题