方法1,建立临时表,利用hive的collect_set 进行去重。

  1. create table if not exists tubutest (
  2. name1 string,
  3. name2 string
  4. )
  5. ROW FORMAT DELIMITED
  6. FIELDS TERMINATED BY ','
  7. STORED AS TEXTFILE;
  8. select * from ods.wdtest;
  9. 1 1
  10. 1 1
  11. 1 2
  12. 1 2
  13. 1 3
  14. 2 3
  15. 2 3
  16. 2 4
  17. select name1,collect_set(name2) from tubutest group by name1;
  18. name1 _c1
  19. 1 ["2","3"]
  20. 2 ["2","4"]
  21. create view ods.wdtestView as
  22. select name1,collect_set(name2) as name2 from ods.wdtest group by name1;
  23. select * from ods.wdtestview;
  24. name1 name2
  25. 1 ["2","3"]
  26. 2 ["2","4"]
  27. select name1, name2 from tubuview LATERAL VIEW explode(name2) tubuview as name2;
  28. Acollect_set 完成把多行转化成一行的功能。
  29. Bexplode 完成把一行转化成多列的功能。 lateral view 主要是辅助 explode 进行使用,来完成类似去重的功能。

2,方法2, 利用row_number 去重

比如,我有一大堆的表格,





表格内容大多类似,只是有些许差别。

现在的需求是把我要统计所有的表格中,都有哪些字段,也就是把所有的表格整合成一张大表

则可以利用row_number 进行去重

最终的表格如下:



需要进行去重,

则可以利用row_number 进行去重(去虫),方法如下

  1. SELECT
  2. name,
  3. type_name,
  4. comment_deatail
  5. from
  6. (SELECT
  7. name,type_name,comment_deatail,
  8. row_number() OVER(PARTITION BY name ORDER BY type_name) as row_count
  9. from demo) t
  10. where row_count=1;

hive 学习系列六 hive 去重办法的思考的更多相关文章

  1. hive 学习系列之七 hive 常用数据清洗函数

    1,case when 的利用,清洗诸如评分等的内容,用例如下. case when new.comment_grade = '五星商户' then 50 when new.comment_grade ...

  2. Hive学习 系列博客

    原 Hive作业优化 原 Hive学习六:HIVE日志分析(用户画像) 原 Hive学习五--日志案例分析 原 Hive学习三 原 Hive学习二 原 Hive学习一 博客来源,https://blo ...

  3. 大数据学习系列之五 ----- Hive整合HBase图文详解

    引言 在上一篇 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...

  4. Hive学习笔记六

    目录 查询 一.基本查询 1.全表和特定列查询 2.列别名 3.算术运算符 4.常用函数 5.Limit语句 二.Where语句 1.比较运算符(Between/In/ Is Null) 2.Like ...

  5. Hadoop Hive概念学习系列之hive里的扩展接口(CLI、Beeline、JDBC)(十六)

    <Spark最佳实战  陈欢>写的这本书,关于此知识点,非常好,在94页. hive里的扩展接口,主要包括CLI(控制命令行接口).Beeline和JDBC等方式访问Hive. CLI和B ...

  6. Hadoop Hive概念学习系列之hive三种方式区别和搭建、HiveServer2环境搭建、HWI环境搭建和beeline环境搭建(五)

     说在前面的话 以下三种情况,最好是在3台集群里做,比如,master.slave1.slave2的master和slave1都安装了hive,将master作为服务端,将slave1作为服务端. 以 ...

  7. Hive学习之六 《Hive进阶— —hive jdbc》 详解

    接Hive学习五 http://www.cnblogs.com/invban/p/5331159.html 一.配置环境变量 hive jdbc的开发,在开发环境中,配置Java环境变量 修改/etc ...

  8. 【Hive学习之八】Hive 调优【重要】

    环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 ...

  9. 【Hive学习之一】Hive简介

    环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 ...

随机推荐

  1. Hyper-V迁移---委派

    在Hyper-V管理器中-实时迁移,选择“使用kerberos",如图1所示 在AD中,找到Hyper-V宿主,分别设置委派,如图2所示    图1               图2

  2. 使用qt的hostInfo类,查看本机的IP和设备

    创建NetWorkInformation类,main.cpp直接生成. #include "networkinformation.h" #include <QApplicat ...

  3. memcached php-memcache 扩展

    1.安装 libevent wget https://github.com/downloads/libevent/libevent/libevent-2.0.21-stable.tar.gz tar ...

  4. npm创建react项目

    1:win+R 输入cmd ,打开cmd面板 2:安装cnpm npm install -g cnpm --registry=https://registry.npm.taobao.org 3:安装r ...

  5. hdu 6208 The Dominator of Strings【AC自动机】

    hdu 6208 The Dominator of Strings[AC自动机] 求一个串包含其他所有串,找出最长串去匹配即可,但是匹配时要对走过的结点标记,不然T死QAQ,,扎心了.. #inclu ...

  6. O(1) 和 O(n) 的区别

    举个简单的例子,要从0加到n,我们会这么写:int sum = 0;for(int i = 0; i<=n; ++i){   sum += i;}一共算了n次加法,那么就说这个时间复杂度是O(n ...

  7. SQL rownum的用法

    rownum只显示两行记录,第一行是字段名,第二行是满足查询条件的记录.

  8. Join Resig's “Simple JavaScript Inheritance ”

    ======================Enein翻译=========================           John Resig 写了一篇关于 JavaScript 里类似其它语 ...

  9. PHP------文件------文件整体操作

    文件整体操作 [1]创建文件 touch("路径");   touch("./test.docx");//当前路径创建文件,创建的文档 显示的结果: touch ...

  10. VS 2013 scanf 报错问题

    在VS2013 用C/C++编码时 使用scanf 会出现如下错误信息: 解决方法如下: 1. 在工程文件名出右击鼠标打开快捷菜单,找到“属性”选项,进入项目属性页面 2. 进入属性页面,找到“配置属 ...