一、ODS层

1、保持数据原貌,不做任何修改

2、数据压缩:LZO压缩,减少磁盘空间

3、创建的是分区表:可以防止后续的全表扫描

包括

用户行为:string line dt

       ods_start;

ods_event(商品列表、商品详情、点击

                广告

点赞、评论、收藏

             ……    )

业务数据:8张表(用户、支付、订单表、订单详情、商品表、商品一二三级分类……)

二、DWD层

1、ETL对数据的核心字段进行清洗【去重、去空】

2、ETL工具是什么

hive的hql

spark 的spark SQL

MR

Python

kettle(数据清洗框架)

3、清洗掉多少算正常?

万分之一

4、维度退化

商品表、三级分类、二级分类、一级分类   ==》 商品表

数仓建模思想:“维度建模”-星型模型、雪花模型、星座模型,尽量选择星型模型

目的:减少重复的join操作

新版数仓:省份+地区,退化到省份表

5、脱敏:

对身份证号、手机号、个人信息脱敏,如159****1165

ods层可以有不脱敏的数据,但这样的表有权限

6、压缩,优势:减少磁盘空间

7、列式存储,parquet:提高查询效率

8、分区表:

用户行为数据

  ods_start:get_json_object()函数

  ods_event:使用自定义UDF、自定义UDTF,以及额外的get_json_object()进行后续解析

业务数据

  用户、支付、订单表、订单详情、商品表

三、DWS层

1、表的组成

用户行为宽表(用户id)、商品宽表、设备行为宽表(非登录用户的指标)

2、哪张宽表最宽

用户行为宽表

3、有多少个字段

60-100个

4、哪60个字段/哪100个字段

说30个以上即可

如用户行为:今天登录的次数、点赞的次数、评论次数、收藏次数、取消点赞次数、加入购物车次数、下单次数、取消下单次数、删除购物车次数、取消收藏次数、追加评论次数、支付次数、支付金额、下单金额、取消订单的商品数/金额、发货次数、退款次数、退款金额

5、流转G复活相关指标

流转

日活:100w

月活:大约是日活的2-3倍,300e

总注册的用户是多少:1000w-3000w之间,

GMV(公司机密)

日GMV:100w日活,10w人下单,一单50-100,10w订单大约是500w-1000w的流水

利润在10%-20%,利润大约在100w-200w之间【进货成本】

人员成本:程序员,1000

复购率:某日常用品复购(手纸、面膜、牙膏)10-20%

手表、显示器、电脑1%-2%

转化率:商品详情 ==》 加购物车  ==》 下单   ==》  支付

          5%-10%    60-70%        90%-95%

留存率:1/2/3、周留存、月留存、

搞活动 10-20%

四、ADS层:分析指标

生产环境下大概在100-200个指标,说30个以上

日活、新增、留存、转化率、丢失、回流、连续三周活跃、七天内连续三天的活跃登录、GMV、复购率、复购率排行

要求可以现场手写指标【第六章】

【大数据面试】【数仓项目】分层:ODS层、DWD层、DWS层、ADS层构成、操作的更多相关文章

  1. CarbonData:大数据融合数仓新一代引擎

    [摘要] CarbonData将存储和计算逻辑分离,通过索引技术让存储和计算物理上更接近,提升CPU和IO效率,实现超高性能的大数据分析.以CarbonData为融合数仓的大数据解决方案,为金融转型打 ...

  2. 面试系列二:精选大数据面试真题JVM专项-附答案详细解析

    公众号(五分钟学大数据)已推出大数据面试系列文章-五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂! 大数据笔面试系列文章分为两种类型: ...

  3. 新闻网大数据实时分析可视化系统项目——2、linux环境准备与设置

    1.Linux系统常规设置 1)设置ip地址 使用界面修改ip比较方便,如果Linux没有安装操作界面,需要使用命令:vi /etc/sysconfig/network-scripts/ifcfg-e ...

  4. 新闻网大数据实时分析可视化系统项目——18、Spark SQL快速离线数据分析

    1.Spark SQL概述 1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的. 2)Spark SQL可以直接运行SQL或者HiveQL语句 3)B ...

  5. 入门大数据---Spark车辆监控项目

    一.项目简介 这是一个车辆监控项目.主要实现了三个功能: 1.计算每一个区域车流量最多的前3条道路. 2.计算道路转换率 3.实时统计道路拥堵情况(当前时间,卡口编号,车辆总数,速度总数,平均速度) ...

  6. GooseFS助力大数据业务数倍提升计算能力

    前言 GooseFS是由腾讯云推出的一款分布式缓存方案,主要针对包括需要缓存加速的数据湖业务场景,提供基于对象存储COS服务的近计算端数据加速层. GooseFS 基于开源大数据缓存方案 Alluxi ...

  7. 数据仓库分层中的ODS、DWD、DWS

    1.数据仓库DW 1.1简介 Data warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源.为了决策需要而产生的,它是一整套包括了etl.调度 ...

  8. [java大数据面试] 2018年4月百度面试经过+三面算法题:给定一个数组,求和为定值的所有组合.

    给定一个数组,求和为定值的所有组合, 这道算法题在leetcode应该算是中等偏下难度, 对三到五年工作经验主要做业务开发的同学来说, 一般较难的也就是这种程度了. 简述经过: 不算hr面,总计四面, ...

  9. Hadoop大数据面试--Hadoop篇

    本篇大部分内容參考网上,当中性能部分參考:http://blog.cloudera.com/blog/2009/12/7-tips-for-improving-mapreduce-performanc ...

  10. 大数据面试(HR电话了解)

    1什么是HA集群? 所谓HA,即高可用(7*24小时不中断服务) HA集群是hadoop高可用集群,即有两个namenode,一个active,一个stanby,active的name挂掉之后,sta ...

随机推荐

  1. Java 服务 Docker 容器化最佳实践

    转载自:https://mp.weixin.qq.com/s/d2PFISYUy6X6ZAOGu0-Kig 1. 概述 当我们在容器中运行 Java 应用程序时,可能希望对其进行调整参数以充分利用资源 ...

  2. kubernetes中部署kube-prometheus项目解决ControllerManager与Scheduler无法监控问题

    文章转载自:https://www.kococ.cn/20210302/cid=697.html 一.问题描述 在部署 kube-prometheus 到 kubernetes 集群中总会遇到一个问题 ...

  3. ECON 模式

    ECON模式通过调节发动机和空调系统的性能,有效提高燃油经济性. 在D行驶档的时候开启

  4. Springboot 之 HandlerMethodReturnValueHandler 运用

    简介 现在项目中大部分采用前后端分离的架构,采用这种架构的项目,在返回数据时,几乎都是采用返回 json 格式的数据.而 spring 中返回 json 格式的数据一般采用 @RestControll ...

  5. Netty 学习(七):NioEventLoop 对应线程的创建和启动源码说明

    Netty 学习(七):NioEventLoop 对应线程的创建和启动源码说明 作者: Grey 原文地址: 博客园:Netty 学习(七):NioEventLoop 对应线程的创建和启动源码说明 C ...

  6. Linux 下指定端口开放访问权限

    Linux 下指定端口开放访问权限 作者:Grey 原文地址: 博客园:Linux 下指定端口开放访问权限 CSDN:Linux 下指定端口开放访问权限 环境 CentOS 系和 Debian 系的防 ...

  7. PhpStorm 2020.1.2破解 | JetBrains PhpStorm 2020.1.2破解版 附破解文件

    直接去官网下载 2020.1.2的版本,版本一定要对得上  是2020.1.2版本 下面是破解的jar,几兆而已 --------------------- 链接:https://pan.baidu. ...

  8. MySQL开发

    常用数据类型 整数:tinyint.int.bigint小数:decimal.字符串:char.varchar.text 增 insert into 表名(列名,列名)values(值,值): 删 d ...

  9. Unity——射线检测(鼠标点击开关门效果)

    Unity射线检测--实现简单的开关门效果 简要:通过鼠标点击来发射一条射线,来获得射线所碰到的物体名称,再通过改变门的Rotation值来实现开关门的效果. 一.代码实现 1.1 简易的场景搭建 注 ...

  10. Istio(二):在Kubernetes(k8s)集群上安装部署istio1.14

    目录 一.模块概览 二.系统环境 三.安装istio 3.1 使用 Istioctl 安装 3.2 使用 Istio Operator 安装 3.3 生产部署情况如何? 3.4 平台安装指南 四.Ge ...