Spark SQL历险记

现在的spark sql编程通常使用scala api 以及 java api的方式，相比于直接使用 spark sql语句，spark api灵活很多，毕竟可以基于dataset以及rdd两种方式进行操作，不过spark sql的坑就有点多了。

1，getClass.getResourceAsStream这个类，网上通常说的是不加"/"是从当前包读取，加了"/"是从根class路径读取，但是根路径并不是在idea或者文件下看到的诸如src/main/resource/这样的路径，而是最终打包时候生成的jar的时候的格式，在生成jar包的时候resource文件夹下会被展开到根路径下，所以如果要加载resource下的资源，只需要"/资源名"就可以了

2、select crossInfo, split(crossInfo, '|') as jda from tem_test_yy lateral view explode(split(jdaList, '#')) tmpTable as crossInfo

这个语句有bug，返回的结果是

jda1||time1    ["j","d","a","","|","","|","t","i","m","e","",""]

jda1||time1    ["j","d","a","","|","","|","t","i","m","e","",""]

jda2||time2    ["j","d","a","","|","","|","t","i","m","e","",""]

jda3||time3   ["|","j","d","a","","|","","|","t","i","m","e","",""]

主要原因是hive里面|字符要使用转义符号！！，所以正确用法是split(crossInfo, '\\|');

3、spark persist不能乱用，尤其是

MEMORY_AND_DISK_SER

级别，对于大表来说，persist效率远不如多执行一遍。。对于几十亿级别的表，效率可降低数倍。。

4、dataframe = dataset[row] ,spark map里面的匿名函数返回值不能是dataset[row]，否则会报序列化错误，它只支持dataset[class]的形式，需要在返回以后在driver端通过 dataset[row].toDF()转成 dataframe也就是dataset[row]才行。但是dataset[row]可以作为map的输入。

5、scala selet("_1.*")和select($"_1")，如果处理的是Tuple[_1,_2]类型的dataset,

后者会生成如下的schema

|-- _1: struct (nullable = true)

 |    |-- all_jda: string (nullable = true)

 |    |-- user_visit_ip: string (nullable = true)

 |    |-- sequence_num: integer (nullable = true)

前者是生成如下的schema

 | -- all_jda: string (nullable = true)

 | -- user_visit_ip: string (nullable = true)

 | -- sequence_num: integer (nullable = true)

这绝对是一个坑=。=，后者会把多一层schema结构，而在spark sql语句中是能直接取到非顶层的列的。。

6、spark sql的一些问题

(1)， hive支持使用正则语句，spark sql 不支持
(2)， left out join on A.column = B.column 而不能写成 left out join on column;
(3), select * from A left out join B on cloumn会造成ambigious错误需要小心
(4), concat_ws不支持对除String外的其他类型数组的连接，需要自己实现一个udf

Spark SQL历险记的更多相关文章

Spark SQL 之 Data Sources
#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFram ...
Spark SQL 之 DataFrame
Spark SQL 之 DataFrame 转载请注明出处:http://www.cnblogs.com/BYRans/ 概述(Overview) Spark SQL是Spark的一个组件,用于结构化 ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
Spark SQL Example
Spark SQL Example This example demonstrates how to use sqlContext.sql to create and load a table ...
通过Spark SQL关联查询两个HDFS上的文件操作
order_created.txt 订单编号订单创建时间 -- :: -- :: -- :: -- :: -- :: order_picked.txt 订单编号订单提取时间 -- :: ...
Spark SQL 之 Migration Guide
Spark SQL 之 Migration Guide 支持的Hive功能转载请注明出处:http://www.cnblogs.com/BYRans/ Migration Guide 与Hive的兼 ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Spark SQL 之 Performance Tuning & Distributed SQL Engine
Spark SQL 之 Performance Tuning & Distributed SQL Engine 转载请注明出处:http://www.cnblogs.com/BYRans/ 缓 ...

随机推荐

2018年发表论文阅读：Convolutional Simplex Projection Network for Weakly Supervised Semantic Segmentation
记笔记目的:刻意地.有意地整理其思路,综合对比,以求借鉴.他山之石,可以攻玉. <Convolutional Simplex Projection Network for Weakly Supe ...
CentOS7.6编译安装nginx
配置阿里云yum源 cp /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bak wget -O /etc/yu ...
Cmder--cmd的替代工具
安装包 Version: v1.3.11 https://share.weiyun.com/5WIRPvx 添加至右键菜单进入cmder的根目录执行注册要右键菜单即可. C:\Windows\sys ...
HTTP 403 ，tomcat配置HTTPS，无法访问返回状态码HTTP 403
为了将本机(windows系统)启动的应用以HTTPS的形式访问, 利用Keytool 生成证书之后.在tomcat的server.xml中将配置修改为如下: <Connector port=& ...
Angular路由——路由基础
一.路由相关对象 Router和RouterLink作用一样,都是导航.Router是在Controller中用的,RouterLink是在模版中用到. 二.路由对象的位置 1.Routes对象配置 ...
Redis高可用技术解决方案总结
一.常见使用方式 Redis的几种常见使用方式包括: Redis单副本: Redis多副本(主从): Redis Sentinel(哨兵): Redis Cluster: Redis自研. 二.各种使 ...
Python中的作用域及global用法
Python 中,一个变量的作用域总是由在代码中被赋值的地方所决定的. 函数定义了本地作用域,而模块定义的是全局作用域. 如果想要在函数内定义全局作用域,需要加上global修饰符. 变量名解析:LE ...
ajax多图上传
百度云代码参考:https://segmentfault.com/q/1010000004218827
css 颜色表示法
css颜色值主要有三种表示方法: (1)颜色名表示,如:red红色,gold金色 (2)rgb表示,如:rgb(255,0,0)表示红色 (3)16进制数值表示,如:#ff0000表示红色,这种可以简 ...
迭代器&迭代对象&生成器
迭代器 & 迭代对象 & 生成器包含__next__ 和 __iter__两个方法的对象为迭代器 __next__方法返回单个元素 __iter__方法返回迭代器本身可迭代对象包含 ...

Spark SQL历险记

Spark SQL历险记的更多相关文章

随机推荐

热门专题