Spark中SQL列和并为一行

在使用数据库的时候，需要将查询出来的一列按照逗号合并成一行。

原表名字为 TABLE ，表中的部分原始数据为：

+---------+------------------------+
| BASIC | NAME               |
+----------+------------------------+
| 1        | 有害程序事件(MI)       |
| 0        | 计算机病毒事件         |
| 0        | 蠕虫事件               |
| 0        | 特洛伊木马事件         |
+----------+------------------------+

查询代码为：

select GROUP_CONCAT(NAME SEPARATOR  ',') as NAME from TABLE where BASIC=0;

得到部分结果为：

+---------------------------------------------------------+
 | NAME               |
+---------------------------------------------------------+
| 计算机病毒事件,蠕虫事件,特洛伊木马事件         |
+---------------------------------------------------------+

但是在 spark 中没有 GROUP_CONCAT 命令，查找后发现命令 concat_ws ：

ResultDF.createOrReplaceTempView("BIGDATA")
val dataDF=spark.sql("select BASIC,concat_ws(',',collect_set(NAME)) as NAMES from BIGDATA group by BASIC")

得到结果：

+----------+------------------------------------------------+
| BASIC | NAMES               |
+----------+------------------------------------------------+
| 1        | 有害程序事件(MI)       |
| 0        | 计算机病毒事件,蠕虫事件,特洛伊木马事件         |
+----------+------------------------------------------------+

也可以用另一个方法：

import org.apache.spark.sql.functions._
ResultDF.groupBy("BASIC ")
           .agg(collect_set("NAME"))
           .show(10,false)

但是得到的结果为 List ：

+----------+------------------------------------------------+
| BASIC | NAMES               |
+----------+------------------------------------------------+
| 1        | 有害程序事件(MI)       |
| 0        | [计算机病毒事件,蠕虫事件,特洛伊木马事件]        |
+----------+------------------------------------------------+

Spark中SQL列和并为一行的更多相关文章

Spark(Hive) SQL中UDF的使用（Python）
相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内 ...
Spark(Hive) SQL中UDF的使用（Python）【转】
相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内 ...
神奇的 SQL 之层级 → 为什么 GROUP BY 之后不能直接引用原表中的列
前言开心一刻感觉不妙呀,弟弟舔它! 不该舔的,舔到怀疑人生了...... GROUP BY 后 SELECT 列的限制标准 SQL 规定,在对表进行聚合查询的时候,只能在 SELECT 子句中写 ...
[转]神奇的 SQL 之层级 → 为什么 GROUP BY 之后不能直接引用原表中的列
原文:https://www.cnblogs.com/youzhibing/p/11516154.html 这篇文章,对group by的讲解不错 -------------------------- ...
拆分Sql列中内容的拆分
拆分Sql列中内容的拆分. /*按照符号分割字符串*/ create function [dbo].[m_split](@c varchar(2000),@split varchar(2)) retu ...
sql得到表中的列信息
取列全部用的 sys. 中的表 CTE:WITH name AS() 用法: sql树形查询 ①主键信息 SELECT ic.column_id, ic.index_column_id, ic.o ...
Python：读取txt中按列分布的数据，并将结果保存在Excel文件中 && 保存每一行的元素为list
import xlwt import os def write_excel(words,filename): #写入Excel的函数,words是数据,filename是文件名 wb=xlwt.Wor ...
【SQL】Update中使用表别名、如何用表中一列值替换另一列的所有值
Update中使用表别名 select中的表别名: select * from TableA as ta update中的表别名: update ta from TableA as ta 如何用表中一 ...
Spark(Hive) SQL数据类型使用详解(Python)
Spark SQL使用时需要有若干“表”的存在,这些“表”可以来自于Hive,也可以来自“临时表”.如果“表”来自于Hive,它的模式(列名.列类型等)在创建时已经确定,一般情况下我们直接通过Spar ...

随机推荐

UOJ#465. 【HNOI2019】校园旅行其他
原文链接www.cnblogs.com/zhouzhendong/p/UOJ465.html 前言 tmd并查集写挂,调到自闭. cly和我写挂了同一个地方. 一下救了两个人感觉挺开心. 题解首先直 ...
Java基础知识总结（超级经典）
Java基础知识总结(超级经典) 写代码: 1,明确需求.我要做什么? 2,分析思路.我要怎么做?1,2,3. 3,确定步骤.每一个思路部分用到哪些语句,方法,和对象. 4,代码实现.用具体的java ...
numpy学习总结（重点讲解索引方式）
numpy思维导图 ndarray对象是什么 NumPy 最重要的一个特点是其 N 维数组对象 ndarray,它是一系列同类型数据的集合,以 0 下标为开始进行集合中元素的索引. ndarray 对 ...
数据分析大数据之路三 numpy
import numpy as np a = np.arange(9) b = a.reshape(3,3) print(b) print(b.max(axis=0)) # axis=0 示为 Y 轴 ...
#工具 Intellij IDEA中自定义的Maven Archetype管理
背景,手贱在输入自定义的 archetype时后面多输入了一个空格解决:自定义的Archetype 会保存在Windows下面的文件中 C:\Users\<user>\.IntelliJ ...
为什么在Python里推荐使用多进程而不是多线程？
最近在看Python的多线程,经常我们会听到老手说:“Python下多线程是鸡肋,推荐使用多进程!”,但是为什么这么说呢? 要知其然,更要知其所以然.所以有了下面的深入研究: 首先强调背景: 1. ...
web项目部署到服务器中浏览器中显示乱码
项目部署之后浏览器打开查看时页面乱码这里可能需要修改一下tomcat配置文件,首先找到Tomcat的安装路径下的conf/server.xml文件,找到之后可以CTRL+F搜索如下的内容: < ...
一些 NSArray 的基本操作代码例子
一些 NSArray 的基本操作代码例子数组可以说是软件开发人员每天都要面对的基本操作,下面就分享一些 NSArray 的基本操作代码例子供苹果开发初学者参考,每段代码第一行会以注释方式说明该段代码 ...
从C过渡到C++的几个知识点（结构体、引用、重载运算符）
一.结构体和类(class) 下面一个使用结构体类型的例子 #include <iostream> using namespace std; struct Point{ // 声明Poin ...
SPARK-AM-TrackURL-UI-500
HTTP ERROR 500 Problem accessing /proxy/application_1538120222810_0072/. Reason: Connection refused ...

Spark中SQL列和并为一行

Spark中SQL列和并为一行的更多相关文章

随机推荐

热门专题