大数据分析指南

TMF Frameworx最佳实践

Unleashing Business Value in Big Data

前言

此文节选自TMF Big Data Analytics Guidebook。

TMF文档版权信息 

Copyright © TeleManagement Forum 2013. All Rights Reserved.

This document and translations of it may be copied and furnished to others, and derivative works that comment on or otherwise explain it or assist in its implementation may be prepared, copied, published, and distributed, in whole or in part, without restriction of any kind, provided that the above copyright notice and this section are included on all such copies and derivative works. However, this document itself may not be modified in any way, including by removing the copyright notice or references to TM FORUM, except as needed for the purpose of developing any document or deliverable produced by a TM FORUM Collaboration Project Team (in which case the rules applicable to copyrights, as set forth in the TM FORUM IPR Policy, must be followed) or as required to translate it into languages other than English.

面对许多不断涌现的大数据分析技术,CSP需要一个清晰的参考模型,以方便理解不同的大数据分析技术和合理定义流程,从而为特定的业务用例选择正确的技术框架和路线。

为了满足以上需求,本指南提供了大数据分析的参考用例、可重用构件和参考实现的框架,帮助CSP通过大数据分析技术获得商业价值。

本指南包括以下内容(目前标灰的内容尚未介绍,后续逐步更新):

1、  大数据和大数据分析的基本概念和技术

1.1 大数据

1.2 大数据分析

1.3 大数据分析技术

2、  参考模型:大数据分析解决方案

2.1 概述

2.2 数据装载

2.3 数据管理

2.4 数据分析

2.5 数据存储

2.6 数据治理

2.7 数据处理

3、  大数据分析的业务价值路线图

4、  大数据分析用例

5、  大数据分析构件

1、大数据和大数据分析的基本概念和技术

1.1、大数据

对于“大数据”的定义以及它与“普通”数据的区别,许多标准组织、咨询公司和贸易集团都进行了尝试,得出的结论略微不同,因为所有观点都采用了大数据的特征(3V、4V等等)对其描述,但没有更多地涉及定义本身。截至本指南发布时,3V模型(Volume、Velocity、Variety)仍是大数据最流行的定义。

“大数据”一种较新的定义如下:

大数据是能够采用归纳统计的数据,并且其数据量允许演绎和预测未来一定时期内的数据行为。

原文如下:

A newer model (Big Data Paris, 2013) looks at Big Data as utilizing inductive statistics with data, the volume of which allows inferring laws and predicting to a certain extent future behaviors of the data.

以上定义来源于:http://www.andsi.fr/tag/dsi-big-data/

传统的商业智能采用的是描述统计。

1.2、大数据分析

不管哪一种定义,大数据的价值在于分析结果、预测和执行。TMF大数据分析项目关注的不是大数据本身,而是大数据分析技术和方法。

大数据分析要求高性能的海量数据处理能力和合理的响应时间。为了满足这些条件,一些非传统的技术在过去10年间不断涌现出来,并擅长于share nothing、大规模并行、水平扩展。

1.3、大数据分析技术

MapReduce框架和Hadoop

  1. MapReduce编程模型
  2. HDFS(分布式文件系统)
  3. HBase(分布式数据库)
  4. Pig、Hive(数据访问)
  5. Impala(实时即席查询)

NoSQL存储

4种NoSQL数据库

  1. 键值存储(如亚马逊Dynamo、Voldemold)
  2. 列式存储(如Cassendra、HBase)
  3. 文件存储(如MongoDB)
  4. 图存储(如neo4j、Allegro graph)

基于HDFS的实时查询

如Impala

搜索

2、参考模型

参考模型的目的是为了提供大数据分析平台的功能组件。通过不同功能组件的职责划分,可以得出明确的角色和职责视图,从而在大数据分析领域达成共识。

2.1、概述

下图是大数据分析参考模型,包括大数据生态系统概览及其平台功能层次。根据数据相关性和数据密度,所有功能分层向其它功能分层和第三方应用提供外部和内部API。

说明:

1、  参考模型是为了满足任意一个大数据用例需求的总体功能,根据每个用例的具体情况,可能只需要涉及参考模型的功能子集。

2、  参考模型中的分层是相似功能的抽象分组,并非某个大数据平台的构件,因此,各个分层功能向某个大数据平台的实际映射取决于厂家具体实现。

3、  参考模型中的分层不具备层级和顺序的特性,如ISO的OSI 七层模型和TCP/IP四层模型那样。除了数据装载层从外部数据源接受数据外,其它层之间的顺序和组合根据具体情况可以改变。

4、  数据存储可以视作为大数据平台的构件,除了存储原始数据和处理后的数据外,还可以用于不同层之间的数据流转。

5、  保护消费者隐私的法律法规常常削弱了CSP利用数据赚钱的能力,也减少了在数据价值链中建立合作关系的可能。在“数据治理”中的隐私、安全和监管功能通过数据隐私保护技术用于解决以上问题。大数据分析应用可以视为参考模型中各分层的组合。

6、  “批处理”指的是离线处理(或按计划处理),它根据需求开始执行,并且假定存在大量的内存空间。发生外部请求后,批处理在有限的时间内能够处理完有限的数据集。在批处理模式下,信令流与数据流是分离的,而在流处理模式下,信令流是包含在数据流中的。流处理模式指的是在线处理,它根据需求不断地处理数据流。流处理模式可以与复杂事件处理技术有关,也可以与实时学习和实时预测等技术有关。

7、  参考模型可以视为支持商务智能的PaaS,数据管理层和数据分析层涵盖了商务智能的所有功能,并能够被外部应用或者用户接口使用,使用方式可以基于本地或者云。

2.2数据装载

集成

建立不同系统之间的连接,用于数据的流转。

数据导入

从外部数据源导入数据至大数据平台,数据可以被打上标签,以指明来自于哪个数据源。

数据格式化

将来自于不同数据源的数据统一格式。例如,来自于2G、3G和4G不同接口的IMSI可能采用不同的编码格式,因此,该功能在数据流转到其它层之前统一格式。

2.3数据管理

转换

将原始数据映射到数据模型中,使之成为有意义和有用的数据。典型的数据转换包括:

  • 比较
  • 日期和时间
  • 逻辑
  • 公式
  • 统计
  • 文本
  • 三角法
  • 编码
  • 列表管理
  • URL管理

关联

将来自于各种数据源且表示相同业务实体的数据关联起来。例如,将来自CDR中MSISDN与来自CRM的用户编号关联起来(两者表示了同一个业务实体——用户),能够提供关于该用户更加丰富的信息。

丰富化

将指向同一业务实体的多个数据源组合起来(如用户),从而形成这个实体的信息全视图。有些情况下,数据源来自于CSP的多个数据库,有些情况下,一些数据来自于大数据分析结果。

例如,基于用户的浏览历史和位置,可以较为准确地预测其性别、年龄、教育程度和收入等。

数据操作

数据操作包括:

  • 合并
  • 交集
  • 排序
  • 过滤
  • 压缩
  • 去重/复制
  • 分组
  • 汇总

数据质量保障

数据质量保障包括:

  • 数据清洗
  • 数据完整性保障

例如,带有校验值错误的数据写入日志后丢弃。

2.4数据分析

该层通过批处理模式和流处理模式支持大数据分析,包括指标计算、数据建模、复杂事件处理和机器学习。

数据分析层依赖于许多技术,包括:

  • 事件模式检测
  • 实时学习
  • 事件抽象
  • 事件层级建模
  • 事件关系检测(因果关系、组合关系、时序关系)
  • 基于事件驱动的处理
  • 基于触发器的动作执行

数据处理层的关键功能包括:

描述性建模、预测性建模、指导性建模

使用机器学习、数据挖掘算法进行描述性建模、预测性建模、指导性建模(解释过去、预测未来、推荐最佳对策),包括:

  • 分类分析
  • 聚类分析
  • 模式挖掘
  • 推荐、协同过滤
  • 统计关系学习
  • 文本、语音和视频分析

复杂事件处理

大部分复杂事件处理方案和概念可以分为以下两大类:

  • 面向计算的复杂事件处理方案:

对进入系统的事件数据执行在线算法。例如,对进入系统的事件数据不断地进行平均值计算。

  • 面向检测的复杂事件处理方案:

重点关注事件组合检测(或称为事件模式检测)。例如,检测符合特定序列的事件。

复杂事件处理为那些需要实时处理的大数据分析场景提供了可能性,以在线的方式实现了流式数据处理、事件关联和KPI计算等功能。基于用户提供的业务规则,复杂事件处理为外部系统的后续动作触发了告警。

在大数据环境下,复杂事件处理可以由能够进行大规模并行计算的复杂事件处理器实现,如Twitter的开源项目Storm。

基于触发器的动作执行

大数据分析产生的结果可以触发告警和执行动作。

  • 告警:发送告警至用户以便后续决策(机器>人)。
  • 触发器:触发告警至其它系统,并自动执行相应的动作(机器>机器)。

例如,网络性能监控系统使用复杂事件处理技术检测网元告警,当告警数量或严重程度超过门限后,系统向维护人员产生一个严重告警,并触发策略的改变(将网络流量重新路由到其它网元)。

指标计算

计算相关的业务指标,例如TMF业务指标(包括框架指标、客户体验管理指标、平衡积分卡等),以及其它任意指标。

报表生成

数据报表可以实时生成,或者按照天、周、月周期生成,或者根据需要即席生成。报表用于将大数据分析结果进行可视化展现,目前有很多高效的可视化工具产品。

TMF大数据分析指南 Unleashing Business Value in Big Data(一)的更多相关文章

  1. TMF大数据分析指南 Unleashing Business Value in Big Data(二)

    前言 此文节选自TMF Big Data Analytics Guidebook. TMF文档版权信息  Copyright © TeleManagement Forum 2013. All Righ ...

  2. A survey of best practices for RNA-seq data analysis RNA-seq数据分析指南

    A survey of best practices for RNA-seq data analysis RNA-seq数据分析指南 内容 前言 各位同学/老师,大家好,现在由我给大家讲讲我的文献阅读 ...

  3. 大数据分析常用去重算法分析『Bitmap 篇』

    大数据分析常用去重算法分析『Bitmap 篇』  mp.weixin.qq.com 去重分析在企业日常分析中的使用频率非常高,如何在大数据场景下快速地进行去重分析一直是一大难点.在近期的 Apache ...

  4. 使用Kylin构建企业大数据分析平台的4种部署方式

    本篇博客重点介绍如何使用Kylin来构建大数据分析平台.根据官网介绍,其实部署Kylin非常简单,称为非侵入式安装,也就是不需要去修改已有的 Hadoop大数据平台.你只需要根据的环境下载适合的Kyl ...

  5. 《基于Apache Kylin构建大数据分析平台》

    Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿 武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者 ...

  6. 《开源大数据分析引擎Impala实战》目录

    当当网图书信息: http://product.dangdang.com/23648533.html <开源大数据分析引擎Impala实战>目录 第1章  Impala概述.安装与配置.. ...

  7. 【转】使用Apache Kylin搭建企业级开源大数据分析平台

    http://www.thebigdata.cn/JieJueFangAn/30143.html 本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭 ...

  8. 用Storm轻松实时大数据分析【翻译】

    原文地址 简单易用,Storm让大数据分析变得轻而易举. 如今,公司在日常运作中经常会产生TB(terabytes)级的数据.数据来源包括从网络传感器捕获的,到Web,社交媒体,交易型业务数据,以及其 ...

  9. 【转帖】自助式BI的崛起:三张图看清商业智能和大数据分析市场趋势

    自助式BI的崛起:三张图看清商业智能和大数据分析市场趋势 大数据时代,商业智能和数据分析软件市场正在经历一场巨变,那些强调易用性的,人人都能使用的分析软件正在取代传统复杂的商业智能和分析软件成为市场的 ...

随机推荐

  1. jquery获取点击标签内的子标签内容和值实例

    今天有点累了,就不多做其他的描述解释.在插入的代码里相关解释也都有. <!--<%@ page language="java" import="java.ut ...

  2. Oracle备份和恢复

    --什么是脱机备份 脱机备份也叫冷备份,首先管理员使用 shutdown immediate 命令关闭数据库的服务. 之后复制需要的文件,包括数据文件和控制文件等相关内容复制到磁盘的其他位置.当 数据 ...

  3. js 格式华货币

    /*货币格式化*/ function formatMoney(num) { num = num.toString().replace(/\$|\,/g,''); if(isNaN(num)) { nu ...

  4. 仿联想商城laravel实战---7、lavarel中如何给用户发送邮件

    仿联想商城laravel实战---7.lavarel中如何给用户发送邮件 一.总结 一句话总结: 设置邮件服务器,比如163邮箱 lavarel中配置邮件服务,在.env中 控制器中使用Mail对象发 ...

  5. 单机版 RedisUtils({基本操作封装工具类})【三】

    <!--集成的RedisJAR--> <!--引入jedis需的jar包--> <dependency> <groupId>redis.clients& ...

  6. jQuery-选择器(2)

    jQuery选择器(2) 继续学习jquery选择器,感受它对于操作DOM节点的方便. [属性筛选选择器]属性选择器可以让你基于属性来定位一个元素.可以只指定该元素的某属性,这样所有使用该属性而不管它 ...

  7. 素数环:NYOJ--488--dfs||hdu-1016-Prime Ring Problem

    /* Name: NYOJ--488--素数环 Author: shen_渊 Date: 15/04/17 15:30 Description: DFS,素数打个表,37以内就够用了 */ #incl ...

  8. 关于MFC的DLL调用方法问题

    参考资料: 一.dll导出方式: MFC的DLL函数导出方法有两种:一种是通过模块定义文件DEF文件:另一种是在导出函数前加_declspec(dllexport). 1.def文件方法: 只需要在E ...

  9. leetcode 35 Search Insert Position(二分法)

    Given a sorted array and a target value, return the index if the target is found. If not, return the ...

  10. node.js 安装及配置(hello world)及 node 的包管理器(npm)

    下载地址:Download | Node.js,无脑下一步安装即可: 安装时,会自动将 node 可执行文件路径添加进 Path 内,这样进入 cmd 命令行,以查看 node 的安装版本: > ...