【Hadoop/Hive/mapreduce】系列之使用union all 命令之后如何对hive表格使用python进行去重

业务场景大概是这样的，这里由两个hive表格，tableA 和 tableB, 格式内容都是这样的:

uid cate1 cate2

在hive QL中，我们知道union有着自动去重的功能，但是那是真对几行内容完全一致的情况下才可以。现在我们要进行去重的情况是根据uid进行去重。

也就是说可能存在这种情况:

1234 老师唱歌

1234 老师跳舞

对于hive表格中的这两行数据我们只想要保留其中的一行。

针对这种情况，我们做的大致思路就是，取两个表格数据的时候同时人为加上一个flag，然后使用python代码根据flag进行区分保留。

为了进行去重，我们写了两个代码，一个是取得hive数据的shell脚本，一个是处理hive数据的python脚本

vim get_data.sh

function merge(){

cat <<EOF

add file ./process.py;

    select transform(a.*) using 'python tt.py' as uid,cate1,cate2 from

    (select * from

    (select uid,cate1,cate2,"0" as flag from tableA where dt='sth1'

    union all

    select uid,cate1,cate2,"1" as flag from tableB where dt='sth2'

    )ts

    distribute by uid sort by uid,flag asc

    )a

EOF

}

对于上面这个代码，我觉得有一点需要特别注意，就是

distribute by uid sort by uid,flag asc

为了了解这行代码，我特意去看了看这里的解释参考

简单来说就是说，distribute by uid代表的就是所有uid相同的数据会被送到同一个reducer中去处理。

vim process.py

#!/bin/env python

#-*- encoding:utf-8 -*-

import os

import sys

def set_values(value):

        if value.isdigit():

                return int(value)

        else :

                return 0

lastuid=""

cate1=""

cate2=""

flag=""

for line in sys.stdin :

        line=line.replace("\n","").replace(" ","")

        v=line.split("\t")

        try :

                uid=v[0]

                if not uid.isdigit() or len(v) != 4:

                        pass

                if lastuid!="" and lastuid!=uid:

                        print (lastuid+"\t"+str(cate1)+"\t"+str(cate2))

                        lastuid=""

                        cate1=""

                        cate2=""

                        flag=""

                cate1=v[1]

                cate2=v[2]

                flag=v[3]

                lastuid=uid

        except :

                pass

print (lastuid+"\t"+str(cate1)+"\t"+str(cate2)) #这行代码是为了输出最后一行，这行代码很类似于python word count中的示例代码

【Hadoop/Hive/mapreduce】系列之使用union all 命令之后如何对hive表格使用python进行去重的更多相关文章

使用union all 命令之后如何对hive表格进行去重
业务场景大概是这样的,这里由两个hive表格,tableA 和 tableB, 格式内容都是这样的: uid cate1 cate2 在hive QL中,我们知道union有着自动去重的功能,但是那是 ...
Hadoop Hive概念学习系列之hive里的JDBC编程入门（二十二）
Hive与JDBC示例在使用 JDBC 开发 Hive 程序时, 必须首先开启 Hive 的远程服务接口.在hive安装目录下的bin,使用下面命令进行开启: hive -service hives ...
Hadoop Hive概念学习系列之hive三种方式区别和搭建、HiveServer2环境搭建、HWI环境搭建和beeline环境搭建（五）
说在前面的话以下三种情况,最好是在3台集群里做,比如,master.slave1.slave2的master和slave1都安装了hive,将master作为服务端,将slave1作为服务端. 以 ...
Hadoop Hive概念学习系列之hive里的索引（十三）
Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键. Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要 ...
Hadoop Hive概念学习系列之hive的索引及案例（八）
hive里的索引是什么? 索引是标准的数据库技术,hive 0.7版本之后支持索引.Hive提供有限的索引功能,这不像传统的关系型数据库那样有“键(key)”的概念,用户可以在某些列上创建索引来加速某 ...
Hadoop Hive概念学习系列之hive里的优化和高级功能（十四）
在一些特定的业务场景下,使用hive默认的配置对数据进行分析,虽然默认的配置能够实现业务需求,但是分析效率可能会很低. Hive有针对性地对不同的查询进行了优化.在Hive里可以通过修改配置的方式进行 ...
从Hadoop骨架MapReduce在海量数据处理模式（包括淘宝技术架构）
从hadoop框架与MapReduce模式中谈海量数据处理前言几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,认为它们非常是神奇.而神奇的东西常能勾 ...
【SQL系列】深入浅出数据仓库中SQL性能优化之Hive篇
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[SQL系列]深入浅出数据仓库中SQL性能优化之 ...
Hadoop学习笔记系列
Hadoop学习笔记系列一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼 ...

随机推荐

XmlSerilizer序列化出错时,不妨考虑BinaryFormatter
当你使用XmlSerilizer序列化一个结构复杂的类型时出现反射出错 XmlSerilizer并不会告诉你哪个字段属性或者嵌套的字段属性不能被序列号,面对多年前的代码逐一排查很恼人使用BinaryF ...
TYVJ P2032 「Poetize9」升降梯上 spfa最短路
%%%暴搜出奇迹%%%@SiriusRen 其实我刚开始题读错了,才导致我写图论... spfa跑最短路,开一个node记录状态(pair当然滋磁):所在楼层和槽的位置以层数为1,槽在0的位置为初 ...
CodeForces - 851B -Arpa and an exam about geometry（计算几何）
Arpa is taking a geometry exam. Here is the last problem of the exam. You are given three points a, ...
【手撸一个ORM】第八步、查询工具类
一.实体查询 using MyOrm.Commons; using MyOrm.DbParameters; using MyOrm.Expressions; using MyOrm.Mappers; ...
NET Core Web发布包
给ASP.NET Core Web发布包做减法 https://www.cnblogs.com/sheng-jie/p/9122582.html 1.引言紧接上篇:ASP.NET Core Web ...
org.apache.ibatis.binding.BindingException【原因汇总】
这个问题整整纠结了我四个多小时,心好累啊...不废话... 背景:Spring整合Mybatis 报错:org.apache.ibatis.binding.BindingException: Inva ...
guacamole 0.9.13安装与配置
以下命令很多都需要管理权限,建议使用管理员账号执行,遇到问题可以留言. Guacamole官网文档介绍翻译:http://www.cnblogs.com/ji-yun/p/5657709.html 1 ...
Swing编程概述
Swing作为AWT组件的“强化版”,它的产生主要是为了克服AWT构建的GUI,无法在所有平台都通用的问题.允许编程人员跨平台时指定统一的GUI显示风格也是Swing的最大优势.Swing是AWT的补 ...
Google Play发布App中遇到"多个APK：版本1未提供给任何设备配置使用。"问题的解决方法
在google play上发布apk,当上传了apk文件,填写了相关的内容信息和介绍图片.图标后,出现“发布应用”始终灰色无法点击,查看原因显示如下问题: 其中支持的设备数量始终显示为0,怀疑是编译出 ...
Git在Xcode中的配置与使用常见问题总结
书接上回提出的Git在Xcode中的配置与使用常见问题4个问题问题1,如何在Xcode中创建代码库,并添加和提交代码到代码库? 问题2,如何在Xcode中提交推送给远程服务器代码库? 问题3,如何在 ...

【Hadoop/Hive/mapreduce】系列之使用union all 命令之后如何对hive表格使用python进行去重

【Hadoop/Hive/mapreduce】系列之使用union all 命令之后如何对hive表格使用python进行去重的更多相关文章

随机推荐

热门专题