RTB日志分析MR程序设计

到新公司三个月了，上个月做的是Beacon项目，详细的设计思想还没有写文档。这两周开始搞Hadoop，开始阅读相关论文。开始编写MR程序。开始写java，大学时用java较多，工作后就一直在用c/c++/php/shell/js 等。并不排斥语言，各有各的优劣。只是需要从底层的角度去理解各程序的运行态。

Hadoop的原理架构方面的文章等再深入了解之后再写。先写下上周做的RTB日志分析MR程序的设计，懒得画图，仅用文字表述。

需求：
1. 读入RTB log日志，对log日志进行分析按照特定格式输出，并对某些字段做异常检测。日志为json格式，顺序无关。默认输入格式不可靠（必填字段可能会没有等）
2. 对错误的字段进行出错次数统计，并记录错误日志。

现有代码：
  1. RTB字段对应的一个类，字段为类的属性，序列化及反序列化时使用。类似于C/C++的结构体
  2. 一次读入字段，对每个值进行parse，在Parse的辅助类内添加异常报警代码。大量的if else 语句
  3. 依赖于公共的RTB对象，RTB对象属性变化时，线上对他依赖的程序会宕机。(强制检测，是好处，亦是风险)。

现有代码的不足：
  1. 代码量多，代码逻辑不少重复。过量的if语句
  2. 报警相关的数据存储结构跨越三个类，三个文件。辅助类型判断解析类承载了业务逻辑。
  3. 字段变更或者增删时改动较多，库的依赖将导致牵一发而动全身。维护成本较高。
4. 配置相关的代码文件跨越度太大，用的地方过于随意。机器间迁移运行时无法通过代码直观知道配置，易人维护成本高。环境迁移调试成本高。

现有代码的优点：
1. 主要业务逻辑代码直观，RTB字段封装为jar类库，后期增加输入配置时，便于接入。字段类型变更时会导致依赖于其的程序宕机（也是一种好处，强制检测）
2. RTB字段设计为类属性，代码效率较高。运行时直接栈上读取。

新业务环境下的改进：

目标：
1. 业务逻辑清晰，输入输出字段对应关系明确。
2. 字段的异常检测统一处理，统一报告错误。不能遍处理字段遍检测，因为输入字段可能没有，这种情况下如果对应的目标字段不允许为空就悲催了
3. 简化配置：去除不必要的配置。如报警时的字段名称配置。配置统一处理，统一管理。
4. warning异常时，记录原始输入字段

设计一：
设计的数据结构：
LinkedHashMap保存输入字段与目标字段的映射关系。 RecordField 为自定义对象类。保存了目标Key，目标Value，异常检测标准。
private Map<String, RecordField> mapfields = new LinkedHashMap<String, RecordField>();
初始化时如下：
mapfields.put("vendor_id", new RecordField("vendorID", RecordField.E_NOT_EMPTY|RecordField.E_DIGITAL|RecordField.E_WARN));
  mapfields.put("request_time", new RecordField("requestTime", RecordField.E_NOT_EMPTY|RecordField.E_FATAL));
  mapfields.put("user_id", new RecordField("userID", RecordField.E_NOT_EMPTY));
  mapfields.put("campaign_id", new RecordField("campaignID", RecordField.E_NOT_EMPTY));

异常处理：
RecordField 保存异常检测策略，检测时遍历每个字段，调用其Check方法获得异常结果即可。

交付代码时老员工强制要求使用现有的RTB类，出于尊重，只能用了。但又不想大量的if else语句及字符串的相等判断；于是有了设计二，主要用到了java的反射。

设计二：

linkedhaspmap 保存原始输入与目标输出之间的映射关系；
对现有类(包含近百个public属性字段)的每个属性编写Set方法，方法名为void SetFieldName(String), 基本是体力劳动了，基本是对字段的类型转换复制(上一个设计中为制定了一些配置规则自动转换)
对每个原始输入字段，找到匹配的目标字段，通过目标字段反射获得其Set方法，调用Set赋值；静态变量保存反射的函数地址，因反射查找函数的过程较慢
异常检测：对需要做异常检测的字段专门编写其对应的Check方法，并保存需要做检测的字段数组，字段映射完成后遍历需要检测的字段，根据字段名获取对应的Check方法并执行

RTB日志分析MR程序设计的更多相关文章

日志分析_使用shell完整日志分析案例
一.需求分析 1. 日志文件每天生成一份(需要将日志文件定时上传至hdfs) 2. 分析日志文件中包含的字段:访问IP,访问时间,访问URL,访问状态,访问流量 3. 现在有"昨日" ...
海量WEB日志分析
Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, ...
苏宁基于Spark Streaming的实时日志分析系统实践 Spark Streaming 在数据平台日志解析功能的应用
https://mp.weixin.qq.com/s/KPTM02-ICt72_7ZdRZIHBA 苏宁基于Spark Streaming的实时日志分析系统实践原创: AI+落地实践 AI前线 20 ...
Awk使用及站点日志分析
Awk使用及站点日志分析 Awk简单介绍概述 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.简单来说awk就是把文件逐行的读入, ...
Spark SQL慕课网日志分析（1）--系列软件(单机)安装配置使用
来源: 慕课网 Spark SQL慕课网日志分析_大数据实战目标: spark系列软件的伪分布式的安装.配置.编译 spark的使用系统: mac 10.13.3 /ubuntu 16.06,两个 ...
hadoop入门之海量Web日志分析用Hadoop提取KPI统计指标
转载自:http://blog.fens.me/hadoop-mapreduce-log-kpi/ 今天学习了这一篇博客,写得十分好,照着这篇博客敲了一遍. 发现几个问题, 一是这篇博客中采用的had ...
【转】gc日志分析工具
性能测试排查定位问题,分析调优过程中,会遇到要分析gc日志,人肉分析gc日志有时比较困难,相关图形化或命令行工具可以有效地帮助辅助分析. Gc日志参数通过在tomcat启动脚本中添加相关参数生成gc ...
海量日志分析方案--logstash+kibnana+kafka
下图为唯品会在qcon上面公开的日志处理平台架构图.听后觉得有些意思,好像也可以很容易的copy一个,就动手尝试了一下. 目前只对flume===>kafka===>elacsticSea ...
ELK+Kafka集群日志分析系统
ELK+Kafka集群分析系统部署因为是自己本地写好的word文档复制进来的.格式有些出入还望体谅.如有错误请回复.谢谢! 一. 系统介绍 2 二. 版本说明 3 三. 服务部署 3 1) JDK部 ...

随机推荐

maven安装和环境变量配置
maven安装和环境变量配置 myeclipse自带maven(Maven4MyEclipse)创建项目:新建Web Projects项目,在新建的页面上打上maven的勾.新建的项目里会多出个pom ...
【HDU 1828】 Picture （矩阵周长并，线段树，扫描法）
[题目] Picture Problem Description A number of rectangular posters, photographs and other pictures of ...
Java RMI简单例子HelloWorld
Java RMI 指的是远程方法调用 (Remote Method Invocation).它是一种机制,能够让在某个 Java 虚拟机上的对象调用另一个 Java 虚拟机中的对象上的方法.可以用此方 ...
iOS开发控制器之间传值的几种小方法
在IOS开发中或面试中,经常会遇到,两个或者多个控制器之间传值的问题 ,总结的集中方法仅供参考! 问题 :将B控制器中的textField 输入内容,传到A控制器中的label上显示出来,如何传值? ...
async await 异步编程杂记
1. async 仅仅是用了标记方法中有异步调用(就是有await...) 2 await 用来把「当前线程」中的代码“分成片”,通过一定条件和事件回调的形式 “依次执行”. 3. await ...
on the wane
从文章PHP, Once The Web's Favorite Programming Language, Is On The Wane看到on the wane的说法. becoming less; ...
JavaScript String支持的辅助format函数+【分页1】
/** ) { && ; i < arguments.length; i++) { : int.Parse(Request.Par ...
通过ip获取地理位置信息
http://ipinfo.io/developers 直接使用get请求 url: http://ipinfo.io/json 即可获得json数据
bzoj2004
反正N<=10^9肯定是矩阵乘法反正p<=10肯定是状压dp首先有一个非常重要的性质是任意连续P个站,必须保证K辆车必须停在其中的一个站我们设f[i,S]表示到第i个站搞定了后,这K辆公交 ...
How to make project not set to be build
1.BUILD->Configuration Management... 2. When you guys add new projects to the kiosk solution plea ...

RTB日志分析MR程序设计

RTB日志分析MR程序设计的更多相关文章

随机推荐

热门专题