hive：数据库“行专列”操作---使用collect_set/collect_list/collect_all & row_number()over(partition by 分组字段 [order by 排序字段])

方案一：请参考《数据库“行专列”操作---使用row_number()over(partition by 分组字段 [order by 排序字段])》，该方案是sqlserver,oracle,mysql,hive均适用的。

在hive中的方案分为以下两种方案：

创建测试表，并插入测试数据：

--hive　测试 行转列 collect_set collect_list

create table tommyduan_test(

gridid string,

height int,

cell string,

mrcount int,

weakmrcount int

);

insert into tommyduan_test values('g1',1,'cell1',12,3);

insert into tommyduan_test values('g1',1,'cell2',22,3);

insert into tommyduan_test values('g1',1,'cell3',23,3);

insert into tommyduan_test values('g1',1,'cell4',1,3);

insert into tommyduan_test values('g1',1,'cell5',3,3);

insert into tommyduan_test values('g1',1,'cell6',4,3);

insert into tommyduan_test values('g1',1,'cell19',21,3);

insert into tommyduan_test values('g2',1,'cell4',1,3);

insert into tommyduan_test values('g2',1,'cell5',3,3);

insert into tommyduan_test values('g2',1,'cell6',4,3);

insert into tommyduan_test values('g2',1,'cell19',21,3);

方案二：使用collect_set方案

注意：collect_set是一个set集合，不允许重复的记录插入

select gridid,height,collect_list(cell) cellArray,collect_list(mrcount) mrcountArray,collect_list(weakmrcount) weakmrcountArray

from (

select gridid,height,cell,mrcount,weakmrcount,row_number()over(partition by gridid,height order by mrcount desc) rn

from tommyduan_test

group by gridid,height,cell,mrcount,weakmrcount

) t10

where rn<4

group by gridid,height;

+---------+---------+-----------------------------+---------------+-------------------+--+

| gridid  | height  |          cellarray          | mrcountarray  | weakmrcountarray  |

+---------+---------+-----------------------------+---------------+-------------------+--+

| g1      | 1       | ["cell3","cell2","cell19"]  | [23,22,21]    | [3,3,3]           |

| g2      | 1       | ["cell19","cell6","cell5"]  | [21,4,3]      | [3,3,3]           |

+---------+---------+-----------------------------+---------------+-------------------+--+

select gridid,height,

(case when size(cellArray)>0 then cellArray[] else '-9999' end) as cell1,

(case when size(cellArray)>0 then mrcountArray[] else '-9999' end) as cell1_mrcount,

(case when size(cellArray)>0 then weakmrcountArray[] else '-9999' end) as cell1_weakmrcount,

(case when size(cellArray)>1 then cellArray[] else '-9999' end) as cell2,

(case when size(cellArray)>1 then mrcountArray[] else '-9999' end) as cell2_mrcount,

(case when size(cellArray)>1 then weakmrcountArray[] else '-9999' end) as cell2_weakmrcount,

(case when size(cellArray)>2 then cellArray[] else '-9999' end) as cell3,

(case when size(cellArray)>2 then mrcountArray[] else '-9999' end) as cell3_mrcount,

(case when size(cellArray)>2 then weakmrcountArray[] else '-9999' end) as cell3_weakmrcount

from

(

select gridid,height,collect_list(cell) cellArray,collect_list(mrcount) mrcountArray,collect_list(weakmrcount) weakmrcountArray

from (

select gridid,height,cell,mrcount,weakmrcount,row_number()over(partition by gridid,height order by mrcount desc) rn

from tommyduan_test

group by gridid,height,cell,mrcount,weakmrcount

) t10

where rn<4

group by gridid,height

) t12;

+---------+---------+---------+----------------+--------------------+--------+----------------+--------------------+---------+----------------+--------------------+--+

| gridid  | height  |  cell1  | cell1_mrcount  | cell1_weakmrcount  | cell2  | cell2_mrcount  | cell2_weakmrcount  |  cell3  | cell3_mrcount  | cell3_weakmrcount  |

+---------+---------+---------+----------------+--------------------+--------+----------------+--------------------+---------+----------------+--------------------+--+

| g1      | 1       | cell3   | 23             | 3                  | cell2  | 22             | 3                  | cell19  | 21             | 3                  |

| g2      | 1       | cell19  | 21             | 3                  | cell6  | 4              | 3                  | cell5   | 3              | 3                  |

+---------+---------+---------+----------------+--------------------+--------+----------------+--------------------+---------+----------------+--------------------+--+

方案三：使用collect_list/collect_all方案

注意：collect_set是一个set集合，不允许重复的记录插入

select gridid,height,collect_set(cell),collect_set(mrcount),collect_set(weakmrcount)

from (select * from tommyduan_test order by gridid,height,mrcount desc) t10

group by gridid,height;

+---------+---------+-------------------------------------------------------------+----------------------+------+--+

| gridid  | height  |                             _c2                             |         _c3          | _c4  |

+---------+---------+-------------------------------------------------------------+----------------------+------+--+

| g1      | 1       | ["cell3","cell2","cell19","cell1","cell6","cell5","cell4"]  | [23,22,21,12,4,3,1]  | []  |

| g2      | 1       | ["cell19","cell6","cell5","cell4"]                          | [21,4,3,1]           | []  |

+---------+---------+-------------------------------------------------------------+----------------------+------+--+

select gridid,height,collect_set(cell) cellArray,collect_set(mrcount) mrcountArray,collect_set(weakmrcount) weakmrcountArray

from (

    select gridid,height,cell,mrcount,weakmrcount,row_number()over(partition by gridid,height order by mrcount desc) rn

    from tommyduan_test

    group by gridid,height,cell,mrcount,weakmrcount

) t10

where rn<4

group by gridid,height;

+---------+---------+-----------------------------+---------------+-------------------+--+

| gridid  | height  |          cellarray          | mrcountarray  | weakmrcountarray  |

+---------+---------+-----------------------------+---------------+-------------------+--+

| g1      | 1       | ["cell3","cell2","cell19"]  | [23,22,21]    | []               |

| g2      | 1       | ["cell19","cell6","cell5"]  | [21,4,3]      | []               |

+---------+---------+-----------------------------+---------------+-------------------+--+

select gridid,height,collect_set(concat_ws(',',cell,cast(mrcount as string), cast(weakmrcount as string))) as cellArray

from (

select gridid,height,cell,mrcount,weakmrcount,row_number()over(partition by gridid,height order by mrcount desc) rn

from tommyduan_test

group by gridid,height,cell,mrcount,weakmrcount

) t10

where rn<4

group by gridid,height

+---------+---------+--------------------------------------------+--+

| gridid  | height  |                 cellarray                  |

+---------+---------+--------------------------------------------+--+

| g1      | 1       | ["cell3,23,3","cell2,22,3","cell19,21,3"]  |

| g2      | 1       | ["cell19,21,3","cell6,4,3","cell5,3,3"]    |

+---------+---------+--------------------------------------------+--+

select gridid,height,

(case when size(cellArray)>0 then split(cellArray[],'_')[] else '-9999' end) as cell1,

(case when size(cellArray)>0 then split(cellArray[],'_')[] else '-9999' end) as cell1_mrcount,

(case when size(cellArray)>0 then split(cellArray[],'_')[] else '-9999' end) as cell1_weakmrcount,

(case when size(cellArray)>1 then split(cellArray[],'_')[] else '-9999' end) as cell2,

(case when size(cellArray)>1 then split(cellArray[],'_')[] else '-9999' end) as cell2_mrcount,

(case when size(cellArray)>1 then split(cellArray[],'_')[] else '-9999' end) as cell2_weakmrcount,

(case when size(cellArray)>2 then split(cellArray[],'_')[] else '-9999' end) as cell3,

(case when size(cellArray)>2 then split(cellArray[],'_')[] else '-9999' end) as cell3_mrcount,

(case when size(cellArray)>2 then split(cellArray[],'_')[] else '-9999' end) as cell3_weakmrcount

from

(

select gridid,height,collect_set(concat_ws('_',cell,cast(mrcount as string), cast(weakmrcount as string))) as cellArray

from (

select gridid,height,cell,mrcount,weakmrcount,row_number()over(partition by gridid,height order by mrcount desc) rn

from tommyduan_test

group by gridid,height,cell,mrcount,weakmrcount

) t10

where rn<4

group by gridid,height

) t12;

+---------+---------+---------+----------------+--------------------+--------+----------------+--------------------+---------+----------------+--------------------+--+

| gridid  | height  |  cell1  | cell1_mrcount  | cell1_weakmrcount  | cell2  | cell2_mrcount  | cell2_weakmrcount  |  cell3  | cell3_mrcount  | cell3_weakmrcount  |

+---------+---------+---------+----------------+--------------------+--------+----------------+--------------------+---------+----------------+--------------------+--+

| g1      | 1       | cell3   | 23             | 3                  | cell2  | 22             | 3                  | cell19  | 21             | 3                  |

| g2      | 1       | cell19  | 21             | 3                  | cell6  | 4              | 3                  | cell5   | 3              | 3                  |

+---------+---------+---------+----------------+--------------------+--------+----------------+--------------------+---------+----------------+--------------------+--+

hive：数据库“行专列”操作---使用collect_set/collect_list/collect_all & row_number()over(partition by 分组字段 [order by 排序字段])的更多相关文章

数据库“行专列”操作---使用row_number()over(partition by 分组字段 [order by 排序字段])
测试样例: create table test(rsrp string,rsrq string,tkey string,distan string); '); '); '); '); select * ...
dos命令行连接操作ORACLE数据库
C:\Adminstrator> sqlplus "/as sysdba" 查看是否连接到数据库 SQL> select status from v$instance; ...
hive函数应用之操作json
1.创建表 createtable.sql中存放的创建表语句如下 create external table adt.jsontest ( appKey string comment "AP ...
Python(数据库之表操作)
一.修改表 1. 修改表名 ALTER TABLE 表名 RENAME 新表名; #mysql中库名.表名对大小写不敏感 2. 增加字段 ALTER TABLE 表名ADD 字段名数据类型 [完整性 ...
SQL Server数据库--》top关键字，order by排序，distinct去除重复记录，sql聚合函数，模糊查询，通配符，空值处理。。。。
top关键字:写在select后面字段的前面比如你要显示查询的前5条记录,如下所示: select top 5 * from Student 一般情况下,top是和order by连用的 orde ...
hive 分组排序函数 row_number() over(partition by " " order by " "desc
语法:row_number() over (partition by 字段a order by 计算项b desc ) rank --这里rank是别名 partition by:类似hive的建表, ...
Hive数据库操作
Hive数据结构除了基本数据类型(与java类似),hive支持三种集合类型 Hive集合类型数据 array.map.structs hive (default)> create table ...
大数据开发实战：离线大数据处理的主要技术--Hive,概念，SQL，Hive数据库
1.Hive出现背景 Hive是Facebook开发并贡献给Hadoop开源社区的.它是建立在Hadoop体系架构上的一层SQL抽象,使得数据相关人员使用他们最为熟悉的SQL语言就可以进行海量数据的处 ...
HIVE的sql语句操作
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查 ...

随机推荐

python函数式编程之生成器
在前面的学习过程中,我们知道,迭代器有两个好处: 一是不依赖索引的统一的迭代方法二是惰性计算,节省内存但是迭代器也有自己的显著的缺点,那就是不如按照索引取值方便一次性,只能向后取值,不能向前取 ...
[Luogu 2642] 双子序列最大和
Description 给定一个长度为n的整数序列,要求从中选出两个连续子序列,使得这两个连续子序列的序列和之和最大,最终只需输出最大和.一个连续子序列的和为该子序列中所有数之和.每个连续子序列的最小 ...
Webpack模块的导出以及之间的依赖引用
一. 模块化开发模块化开发说白了就不必在html页面,引用所有的js文件.所有的js文件都进行模块化设置,模块之间可以相互引用.Webpack模块化开发是使用module.exports进行相关方法和 ...
深度学习之TensorFlow构建神经网络层
深度学习之TensorFlow构建神经网络层基本法深度神经网络是一个多层次的网络模型,包含了:输入层,隐藏层和输出层,其中隐藏层是最重要也是深度最多的,通过TensorFlow,python代码可 ...
KVM之五：KVM日常管理常用命令
1.查看.编辑及备份KVM 虚拟机配置文件以及查看KVM 状态: 1.1.KVM 虚拟机默认的配置文件在 /etc/libvirt/qemu 目录下,默认是以虚拟机名称命名的.xml 文件,如下,: ...
[日常] Codeforces Round #440 Div.2 大力翻车实况
上次打了一发ABC然后大力翻车...上午考试又停电+Unrated令人非常滑稽...下午终于到了CF比赛... 赛前大力安利了一发然后拉了老白/ $ljm$ / $wcx$ 一起打, 然后搞了个 TI ...
利用jmeter进行数据库测试
1.首先,用jmeter进行数据库测试之前,要把oracle和mysql的JDBC驱动jar包放到jmeter安装路径的lib目录下,否则会提示错误 2.添加一个线程组,如下图 3.接下来添加一个JD ...
关于C语言的第0次作业
1.你认为大学的学习生活.同学关系.师生关系应该是怎样的?请一个个展开描述. 我认为的大学学习生活是充实的,丰富多彩的,与高中快节奏.繁忙的生活有所不同.在上了大学我们都成熟了很多,懂得了包容与忍让, ...
实验四 Android程序设计实验报告
实验四 Android程序设计实验报告目录代码托管地址 Android程序设计-1 Android程序设计-2 Android程序设计-3 Android程序设计-4 Android程序设计-5 ...
201621123062《java程序设计》第11周作业总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多线程相关内容. 思维导图: 2. 书面作业本次PTA作业题集多线程 2.1. 源代码阅读:多线程程序BounceThread 2 ...

hive：数据库“行专列”操作---使用collect_set/collect_list/collect_all & row_number()over(partition by 分组字段 [order by 排序字段])

方案二：使用collect_set方案

方案三：使用collect_list/collect_all方案

hive：数据库“行专列”操作---使用collect_set/collect_list/collect_all & row_number()over(partition by 分组字段 [order by 排序字段])的更多相关文章

随机推荐

热门专题