ETL hive update 之 deltamerge 优化

full join 横向join ，不能map join 走shuffle
row_number() over ( partition by 主键 order by $flag desc) rank ... where rank =1 ，走shufle

select

  id,

  order_datekey,

  f_procurement_order,

from

  (

    select

      id,

      order_datekey,

      f_procurement_order, 

      row_number() over (

        partition by id

        order by

          b_flag_i desc

      ) rank

    from

      (

        select

          id,

          order_datekey,

          f_procurement_order,

          0 b_flag_i

        from

          ods_pms_procurement_order_item_hm old

        WHERE

          c_t >= 1479916800

          or u_t >= 1479916800

        union all

        select

          id,

          order_datekey,

          f_procurement_order,

          1 b_flag_i

        from

          ods_pms_procurement_order_item_hm_delta_64124FEADBFA9720 new

      ) t

  ) st

where

  rank = 1;

差集 + 并集方式效率最高前提是增量数据较少，要不也要走shuffle

# semi_1 数据 id , name

1       jx

2       gj

# semi_2数据id, age

1       28

3       30

select a.id,a.name from semi_1 a left anti join semi_2 b on a.id = b.id;

left anti join 是以左表为主，如果join上就返回null，否则返回左表数据。

2       gj

下图a代表完整old 全集，b代表完整new全集，c代表a与b join 上的交集部分（比如id相等的部分）所以思路就是（a-c）+b实现hive 的update

SET hive.mapred.mode=nonstrict;

INSERT overwrite TABLE $target.table

SELECT

  $stream.format

FROM

  $target.table old left anti

  join ($delta) new on $stream.unique_keys

UNION ALL

SELECT

  $stream.format

FROM

  $target.table ;

fields = 'id,name'

new = 'new'

old = 'old'

and_str = ' AND '

cmd = []

for field in fields.split(','):

    str = old + '.' + field + ' = ' + new + '.' + field

    cmd.append(str)

print and_str.join(cmd)

ETL hive update 之 deltamerge 优化的更多相关文章

写好Hive 程序的若干优化技巧和实际案例
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑.但是一个”好”的Hive程序需要对Hive运行机制有深入的了解,像理解mapreduce作业一样理解Hive QL才能写出正确.高效 ...
Hive性能分析和优化方法
Hive性能分析和优化方法 http://wenku.baidu.com/link?url=LVrnj-mD0OB69-eUH-0b2LGzc2SN76hjLVsGfCdYjV8ogyyN-BSja5 ...
Hive使用Calcite CBO优化流程及SQL优化实战
目录 Hive SQL执行流程 Hive debug简单介绍 Hive SQL执行流程 Hive 使用Calcite优化 Hive Calcite优化流程 Hive Calcite使用细则 Hive向 ...
hive中与hbase外部表join时内存溢出（hive处理mapjoin的优化器机制）
与hbase外部表(wizad_mdm_main)进行join出现问题: CREATE TABLE wizad_mdm_dev_lmj_edition_result as select * from ...
hive查询注意及优化tips
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具.使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原有关系型数 ...
HIVE的几种优化
5 WAYS TO MAKE YOUR HIVE QUERIES RUN FASTER 今天看了一篇[文章] (http://zh.hortonworks.com/blog/5-ways-make-h ...
hive 总结四（优化）
本文参考:黑泽君相关博客本文是我总结日常工作中遇到的坑,结合黑泽君相关博客,选取.补充了部分内容. 表的优化小表join大表.大表join小表将key相对分散,并且数据量小的表放在join的左边 ...
hive中笛卡尔积的优化
由于一个业务,必须要进行笛卡尔积,但是速度太慢了,left join时左表大概4万条数据,右表大概 3000多条数据,这样大概就是一亿多条数据, 这在大数据领域其实不算很大的数据量,但是hive中跑的 ...
Hive参数层面常用优化
1.hive数据仓库权限问题: set hive.warehouse.subdir.inherit.perms=true; 2.HiveServer2的内存连接的个数越多压力越大,可以加大内存:可以 ...

随机推荐

Ajax的工作原理以及优缺点
Ajax的工作原理 : 相当于在客户端与服务端之间加了一个抽象层(Ajax引擎),使用户请求和服务器响应异步化,并不是所有的请求都提交给服务器,像一些数据验证和数据处理都交给Ajax引擎来完成,只有 ...
centos7通过yum安装mysql8
1.检查是否安装mariadb rpm -qa | grep mariadb 若有会显示 mariadb-libs-5.5.56-2.el7.x86_64 2.卸载mariadb rpm -e --n ...
xc笔记
2019-03-20正式开始准备 --言语理解与表达------------------------------------------------------- 分为 1.逻辑填空 2.片段阅读 ...
iTrash for Mac(卸载工具)破解版含注册机
iTrash for Mac是一款专为Mac用户打造非常好用的卸载工具,itrash mac版简单好用,只需要把需要卸载的程序的拖拽到iTrash Mac版窗口内就可以删除应用程序.现为大家带来itr ...
使用multidex解决64K方法引用的限制
1.什么是64K方法引用的限制 65536(64K)是单个dex(Dalvik Executable)字节码文件的可引用的方法数的最大数,包括Android framework.应用的library和 ...
vue cli 3.x的history 和 hash模式切换的问题
使用vue cli 3.x 创建的项目,有一个选项:Use history mode for router? (Requires proper server setup for index fallb ...
.net core 存储base64的图片或文件
public void SaveImageFromBase64(string base64string) { byte[] b = Convert.FromBase64String(base64str ...
生成用于ROM初始化的coe文件---使用matlab
生成用于ROM初始化的coe文件---使用matlab t=0:2*pi/2^12:2*pi; y=0.5*sin(t)+0.5; r=ceil(y*(2^8-1)); fid = fopen('si ...
【配置阿里云 I】申请配置阿里云服务器，并部署IIS和开发环境，项目上线经验
https://blog.csdn.net/vapaad1/article/details/78769520 最近一年在实验室做web后端开发,涉及到一些和服务器搭建及部署上线项目的相关经验,写个帖子 ...
bpmn-js起步
https://blog.csdn.net/u013253924/article/details/85784002 通过本文逐步熟悉bpmn-js. 快速介绍: bpmn.js是一个BPMN2.0渲染 ...

ETL hive update 之 deltamerge 优化

ETL hive update 之 deltamerge 优化的更多相关文章

随机推荐

热门专题