数仓day04----日志预处理2

1.详细描述idmap的整个计算方案

（1）使用SparkSession对象读取用户不同类别的埋点日志，解析并抽取出相应的标识id，使用union进行合并，得到装有汇总标识id的rdd（ids）

（2）利用ids分别构造图计算的vertex集合以及构造图计算的边集合（将出现次数小于2的边过滤掉）

（3）将上一日的idmap映射字典解析成点、边集合，并将之与当日的点边集合进行合并

（4）利用合并后的点、边集合，我们使用spark-graphx构造图，并调用连通子图算法，得到初步结果

（5）将当日的idmp与前一日的idmp做对比，调整用户统一标识（guid）

2.详细描述app埋点日志预处理的整个计算方案

1）json解析，解析成功的返回LogBean对象，解析失败的返回null（这样一来，json格式不对、不完整的脏数据就被识别出来了）

2）对上一步结果RDD[LogBean]进行过滤（清掉json不完整的脏数据，清掉不符合规则的数据）

3）数据修正（调整guid，统一命名规范、度量单位规范等）

4）对数据进行字典集成（如利用地理位置映射字典快速将经纬度转换成地区）

5）从集成后的结果中跳出无法解析的gps，写入一个待解析目录，定期通过网络请求某地图的api，得到地址后，将结果添加到本地的地理位置映射字典

6）输出最终结果保存为parquet（或ORC）文件

3.反复敲3遍-idmapping程序、预处理程序

4.为什么要地理位置geo字典？为什么要idmp字典？为什么要对app埋点日志预处理？

（1）快速获取用户的商圈信息（大致的地理位置），方便后续的地域维度分析

（2）快速判断日志数据的所属用户，以便于后续进行用户行为分析

（3）清除埋点日志中的一些废弃字段，格式不正确，以及不需要的数据，并且可以将数据处理成便于后续的数据分析的格式

数仓day04----日志预处理2的更多相关文章

数仓day03-----日志预处理
1. 为什么要构建一个地理位置维表(字典) 在埋点日志中,有用户的地理位置信息,但是原始数据形式是GPS坐标,而GPS坐标在后续(地理位置维度分析)的分析中不好使用.gps坐标的匹配,不应该做这种精确 ...
【实时数仓】Day01-数据采集层：数仓分层、实时需求、架构分析、日志数据采集（采集到指定topic和落盘）、业务数据采集（MySQL-kafka）、Nginx反向代理、Maxwell、Canel
一.数仓分层介绍 1.实时计算与实时数仓实时计算实时性高,但无中间结果,导致复用性差实时数仓基于数据仓库,对数据处理规划.分层,目的是提高数据的复用性 2.电商数仓的分层 ODS:原始日志数据和业 ...
数仓day01
1. 该项目适用哪些行业? 主营业务在线上进行的一些公司,比如外卖公司,各类app(比如:下厨房,头条,安居客,斗鱼,每日优鲜,淘宝网等等) 这类公司通常要针对用户的线上访问行为.消费行为.业务操作行 ...
数仓1.4 |业务数仓搭建| 拉链表| Presto
电商业务及数据结构 SKU库存量,剩余多少SPU商品聚集的最小单位,,,这类商品的抽象,提取公共的内容订单表:周期性状态变化(order_info) id 订单编号 total_amount 订单金 ...
数仓1.1 分层| ODS& DWD层
数仓分层 ODS:Operation Data Store原始数据 DWD(数据清洗/DWI) data warehouse detail数据明细详情,去除空值,脏数据,超过极限范围的明细解析具体表 ...
【云+社区极客说】新一代大数据技术：构建PB级云端数仓实践
本文来自腾讯云技术沙龙,本次沙龙主题为构建PB级云端数仓实践在现代社会中,随着4G和光纤网络的普及.智能终端更清晰的摄像头和更灵敏的传感器.物联网设备入网等等而产生的数据,导致了PB级储存的需求加大 ...
HAWQ取代传统数仓实践（十九）——OLAP
一.OLAP简介 1. 概念 OLAP是英文是On-Line Analytical Processing的缩写,意为联机分析处理.此概念最早由关系数据库之父E.F.Codd于1993年提出.OLAP允 ...
数仓建设中最常用模型--Kimball维度建模详解
数仓建模首推书籍<数据仓库工具箱:维度建模权威指南>,本篇文章参考此书而作.文章首发公众号:五分钟学大数据,公众号中发送"维度建模"即可获取此书籍第三版电子书先来介绍 ...
基于Hive进行数仓建设的资源元数据信息统计：Hive篇
在数据仓库建设中,元数据管理是非常重要的环节之一.根据Kimball的数据仓库理论,可以将元数据分为这三类: 技术元数据,如表的存储结构结构.文件的路径业务元数据,如血缘关系.业务的归属过程元数据 ...

随机推荐

Luogu P1654 OSU! | 期望
题目链接很妙的一道题. 题目要求$X^3$的期望值. 直接求不好求. 考虑先求出$X$和$X^2$的期望值,然后再求$X^3$的期望值. 迎.刃.而.解. #include<iostream& ...
hdu 5101 Select (二分+单调)
题意: 多多有一个智商值K. 有n个班级,第i个班级有mi个人.智商分别是v1,v2,.....vm. 多多要从这些人中选出两人.要求两人智商和大于K,并且两人不同班.问总共有多少种方案. 数据范围: ...
Mybatis实现简单的CRUD（增删改查）原理及实例分析
Mybatis实现简单的CRUD(增删改查) 用到的数据库: CREATE DATABASE `mybatis`; USE `mybatis`; DROP TABLE IF EXISTS `user` ...
转向系统的传递路径分析（Transfer Path Analysis）入门的一些分享
分享一些自己对于<转向系统><传递路径分析>的理解 (只是一些个人理解,不涉及任何公司隐私问题,logo就懒得一个个去擦了) (1) (2) (3) (4) (5) (6) ( ...
k8s中部署springcloud
安装和配置数据存储仓库MySQL 1.MySQL简介 2.MySQL特点 3.安装和配置MySQL 4.在MySQL数据库导入数据 5.对MySQL数据库进行授权 1.MySQL简介 MySQL 是一 ...
List<String>转List<Integer>
List<Integer> intList = strList.stream().map(Integer::parseInt).collect(Collectors.toList()); ...
Unity——技能系统（一）
技能系统(一) 一.Demo展示二.功能介绍集成了技能,冷却,buff,UI显示,倒计时,动画等: 技能类型:弹道技能,动画事件根据帧数采用延迟调用技能,自定义释放位置(偏移,发射点两种),buf ...
.net core api 请求实现接口幂等性
简单实现接口幂等性,根据参数的hascode实现: 参数介绍 WaitMillisecond : 请求等待毫秒数 CacheMillisecond:请求结果缓存毫秒数参数具体使用场景 WaitMi ...
Python知识整理（三）
三.函数式编程与模块 1.函数式编程 1.高阶函数把函数作为参数传入,这样的函数称为高阶函数,函数式编程就是指这种高度抽象的编程范式. 1.map/reduce map()函数接收两个参数,一个是函 ...
Apache Hudi在华米科技的应用-湖仓一体化改造
徐昱 Apache Hudi Contributor:华米高级大数据开发工程师巨东东华米大数据开发工程师 1. 应用背景及痛点介绍华米科技是一家基于云的健康服务提供商,拥有全球领先的智能可穿戴技 ...

数仓day04----日志预处理2

数仓day04----日志预处理2的更多相关文章

随机推荐

热门专题