Spark SQL里concat_ws和collect

concat_ws: 用指定的字符连接字符串

例如：

连接字符串：

concat_ws("_", field1, field2)，输出结果将会是：“field1_field2”。

数组元素连接：

concat_ws("_", [a,b,c])，输出结果将会是："a_b_c"。

collect_set: 把聚合的数据组合成一个数组，一般搭配group by 使用。

例如有下表T_course;

id	name	course
1	zhang san	Chinese
2	zhang san	Math
3	zhang san	English

spark.sql("select name, collect_set(course) as course_set from T_course group by name");

结果是：

name	course_set
zhang san	[Chinese,Math,English]

贴上套牌车项目代码：

public class TpcCompute2 {

    public static void main(String[] args) {

        SparkSession spark = SparkSession.builder().enableHiveSupport().appName("TpcCompute2").master("local").getOrCreate();

        JavaSparkContext sc = new JavaSparkContext(spark.sparkContext());

        sc.setLogLevel("ERROR");

        //hphm,id,tgsj,lonlat&

        spark.udf().register("getTpc", new ComputeUDF(), DataTypes.StringType);

        spark.sql("use traffic");

        spark.sql("select hphm,concat_ws('&',collect_set(concat_ws('_',id,kk_lon_lat,tgsj))) as concatValue from t_cltgxx t where t.tgsj>'2015-01-01 00:00:00' group by hphm").show(false);

        Dataset<Row> cltgxxDF =

                spark.sql("select hphm,concatValue from (select hphm,getTpc(concat_ws('&',collect_set(concat_ws('_',id,kk_lon_lat,tgsj)))) as concatValue from t_cltgxx t where t.tgsj>'2015-01-01 00:00:00' group by hphm) where concatValue is not null");

        cltgxxDF.show();

        //创建集合累加器

        CollectionAccumulator<String> acc = sc.sc().collectionAccumulator();

        cltgxxDF.foreach(new ForeachFunction<Row>() {

            @Override

            public void call(Row row) throws Exception {

                acc.add(row.getAs("concatValue"));

            }

        });

        List<String> values = acc.value();

        for (String id : accValues) {

            System.out.println("accValues: " + id);

            Dataset<Row> resultDF = spark.sql("select hphm,clpp,clys,tgsj,kkbh from t_cltgxx where id in (" + id.split("_")[] + "," + id.split("_")[] + ")");

            resultDF.show();

            Dataset<Row> resultDF2 = resultDF.withColumn("jsbh", functions.lit(new Date().getTime()))

                    .withColumn("create_time", functions.lit(new Timestamp(new Date().getTime())));

            resultDF2.show();

            resultDF2.write()

                    .format("jdbc")

                    .option("url","jdbc:mysql://lin01.cniao5.com:3306/traffic?characterEncoding=UTF-8")

                    .option("dbtable","t_tpc_result")

                    .option("user","root")

                    .option("password","")

                    .mode(SaveMode.Append)

                    .save();

    }

}

spark.sql语句输出样式：

Spark SQL里concat_ws和collect_set的作用的更多相关文章

第三篇：Spark SQL Catalyst源码分析之Analyzer
/** Spark SQL源码分析系列文章*/ 前面几篇文章讲解了Spark SQL的核心执行流程和Spark SQL的Catalyst框架的Sql Parser是怎样接受用户输入sql,经过解析生成 ...
Spark SQL Catalyst源代码分析之Analyzer
/** Spark SQL源代码分析系列文章*/ 前面几篇文章解说了Spark SQL的核心运行流程和Spark SQL的Catalyst框架的Sql Parser是如何接受用户输入sql,经过解析生 ...
第九篇：Spark SQL 源码分析之 In-Memory Columnar Storage源码分析之 cache table
/** Spark SQL源码分析系列文章*/ Spark SQL 可以将数据缓存到内存中,我们可以见到的通过调用cache table tableName即可将一张表缓存到内存中,来极大的提高查询效 ...
整理对Spark SQL的理解
Catalyst Catalyst是与Spark解耦的一个独立库,是一个impl-free的运行计划的生成和优化框架. 眼下与Spark Core还是耦合的.对此user邮件组里有人对此提出疑问,见m ...
转】 Spark SQL UDF使用
原博文出自于: http://blog.csdn.net/oopsoom/article/details/39401391 感谢! Spark1.1推出了Uer Define Function功能,用 ...
Spark SQL CLI 实现分析
背景本文主要介绍了Spark SQL里眼下的CLI实现,代码之后肯定会有不少变动,所以我关注的是比較核心的逻辑.主要是对照了Hive CLI的实现方式,比較Spark SQL在哪块地方做了改动,哪些 ...
spark sql的agg函数,作用：在整体DataFrame不分组聚合
.agg(expers:column*) 返回dataframe类型 ,同数学计算求值 df.agg(max("age"), avg("salary")) df ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
【转载】Spark SQL之External DataSource外部数据源
http://blog.csdn.net/oopsoom/article/details/42061077 一.Spark SQL External DataSource简介随着Spark1.2的发 ...

随机推荐

springboot异常处理方式
一.异常处理思路异常捕获的是unchecked型异常,因为checked异常在代码中年已经处理过,当然是在使用try-catch处理.这里首先使用ExceptionHandler捕获全局异常,这样如 ...
ELK提高篇之Logstash
目录二.Logstash 2.1.安装logstash 2.2.Logstash的工作原理解析 2.3.Logstash的配置和运行 2.4.Logstash实用举例 2.5.Logstash常用插 ...
linux命令-jdk及mysql安装操作
1. VMware虚拟机 VMWare虚拟机软件是一个“虚拟PC”软件,它使你可以在一台机器上同时运行二个或更多Windows.DOS.LINUX系统. 1.1. vmware15安装配置 Work ...
快速的在linux服务器上安装jdk8
1.执行命令 yum -y list java* 查看可安装java版本.执行成功后可以看见如下的结果选择一个java版本进行安装,这里我们希望安装java1.8,因为我们的机器是64位的,所以选择 ...
Linux的sz和rz命令
工作中需要在Linux和Windows之间传输文件时,一般使用winscp或者ftp工具来完成,最近才知道有sz和rz这两个命令,方便好用. sz 下载从Linux下载文件到本机 , 在Linux ...
python正则表达式(7)--flag修饰符、match对象属性
正则表达式—修饰符正则表达式可以包含一些标志修饰符来控制匹配模式,用在正则表达式处理函数中的flag参数中,为可选参数. (1) re.I 全写(re.IGNORECASE) 表示使匹配时,忽略大小 ...
nginx编译安装以及配置tcp转发
依赖包安装 yum -y install gcc gcc-c++ make automake autoconf pcre pcre-devel zlib zlib-devel openssl open ...
HDU6592 Beauty Of Unimodal Sequence
Beauty Of Unimodal Sequence 给一个序列,在满足单调递增或者单调递减或者先增后减的最长子序列集合里找到下标字典序最大以及最小的两个子序列,输出这两个子序列里元素的下标. n≤ ...
Day01~15 - Python语言基础
Day01 - 初识Python Python简介 - Python的历史 / Python的优缺点 / Python的应用领域搭建编程环境 - Windows环境 / Linux环境 / MacO ...
查看服务器被访问最大的ip
网站有时会很卡,可以先看看哪些ip访问最多,一行命令就可以列出来,如下所示 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c ...

Spark SQL里concat_ws和collect_set的作用

Spark SQL里concat_ws和collect_set的作用的更多相关文章

随机推荐

热门专题