Hive数仓之快速入门(二)】的更多相关文章

上次已经讲了<Hive数据仓库之快速入门一>不记得的小伙伴可以点击回顾一下,接下来我们再讲Hive数据仓库之快速入门二 DQL hive中的order by.distribute by.sort by和cluster by  order by 全局排序,只有一个Reduce任务 sort by 只做jubu排序 distribute by 用distribute by 会对指定的字段按照hashCode值对reduce的个数取模,然后将任务分配到对应的reduce中去执行 cluster by…
今天有一个需求需要将一份文档形式的hft与fdd的城市关系关系的数据导入到hive数仓中,之前没有在hue中进行这项操作(上家都是通过xshell登录堡垒机直接连服务器进行操作的),特此记录一下. -- step1 -- 创建表(注意表的存储格式) create table if not exists edw_public.dim_edw_pub_hft_fdd_city_rel_info( hft_city_id bigint comment '好房通城市id', hft_city_name…
(1)Hive 数仓中一些常用的dt与日期的转换操作 下面总结了自己工作中经常用到的一些日期转换,这类日期转换经常用于报表的时间粒度和统计周期的控制中 日期变换: (1)dt转日期 to_date(from_unixtime(unix_timestamp('${dt}','yyyyMMdd'))) (2)日期转dt regexp_replace('${date}','-','') (3)dt转当月1号日期 to_date(from_unixtime(unix_timestamp(concat(s…
在数仓和BI系统的开发和使用过程中会经常出现需要重跑数仓中某些或一段时间内的分区数据,原因可能是:1.数据统计和计算逻辑/口径调整,2.发现之前的埋点数据收集出现错误或者埋点出现错误,3.业务数据库出现人为修改历史数据的情况.当出现第一和第二种情况的时候需要对数仓各层使用到该数据源的表及依赖这些表的数据模型和表的出现问题时间起的分区都重跑一遍,出现第三种情况的时候需要从ods层(数据同步导入层)及以上的各层都重跑一遍.重跑历史分区的操作是比较麻烦的,如果只是把相应的表的workflow一天天的分…
昨天写了python3.5+django2.0快速入门(一)今天将讲解配置数据库,创建模型,还有admin的后台管理. 配置数据库 我们打开mysite/mysite/settings.py这个文件. 我们可以看到熟悉的databases,默认配置的数据库是 SQLite,如果你想使用其它的数据库,需要在文件中的 DATABASES 'default' 改变适当的值. os.path.join(BASE_DIR, 'db.sqlite3')表示在你项目根目录下的一个文件. 比如我们想要连接mys…
1.     前言 本文的目的是让一个从未接触Hadoop的人,在很短的时间内快速上手,掌握编译.安装和简单的使用. 2.     Hadoop家族 截止2009-8-19日,整个Hadoop家族由以下几个子项目组成: 成员名 用途 Hadoop Common Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等. Avro Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift.avr…
1.Hive的官网上介绍了三个可以在Windows中通过JDBC连接HiveServer2的图形界面工具,包括:SQuirrel SQL Client.Oracle SQL Developer以及DbVisualizer. 2.SQuirrel SQL Client 从http://squirrel-sql.sourceforge.net/下载最新的squirrel-sql,版本为3.7.1,安装后打开. 1. 新建Driver,注意添加运行所依赖的Hive和Hadoop jar包 本人是用3.…
多表关联查询 JOIN 按照功能大致分为如下三类: CROSS JOIN(交叉连接) INNER JOIN(内连接或等值连接). OUTER JOIN(外连接) 交叉连接 交叉连接的关键字:CROSS JOIN 交叉连接的表现:行数相乘.列数相加 隐式交叉连接 SELECT * FROM A,B 显示交叉连接 SELECT * FROM A CROSS JOIN B 内连接 内连接的关键字:INNER JOIN 隐式内连接 SELECT * FROM A,B WHERE A.id = B.id…
一.分段维度简介 在客户维度中,最具有分析价值的属性就是各种分类,这些属性的变化范围比较大.对某个个体客户来说,可能的分类属性包括:性别.年龄.民族.职业.收入和状态,例如,新客户.活跃客户.不活跃客户.已流失客户等.在这些分类属性中,有一些能够定义成包含连续值的分段,例如年龄和收入这种数值型的属性,天然就可以分成连续的数值区间,而象状态这种描述性的属性,可能需要用户根据自己的实际业务仔细定义,通常定义的根据是某种可度量的数值.        组织还可能使用为其客户打分的方法刻画客户行为.分段维…
BASH 中的变量介绍BASH 中的变量都是不能含有保留字,不能含有 "-" 等保留字符,也不能含有空格. 简单变量在 BASH 中变量定义是不需要的,没有 "int i" 这样的定义过程.如果想用一个变量,只要他没有在前面被定义过,就直接可以用,当然你使用该变量的第一条语句应该是对他赋初值了,如果你不赋初值也没关系,只不过该变量是空( 注意:是 NULL,不是 0 ).不给变量赋初值虽然语法上不反对,但不是一个好的编程习惯. 好了我们看看下面的例子:首先用 vi…