基于hadoop的BI架构

BI系统，是企业利用数据驱动运营的一个典型系统。BI系统通过发掘企业运行过程中的数据，发现企业的潜在风险、为企业的各项决策提供数据支撑。

传统的BI系统通常构建于关系型数据库之上。随着企业业务量的增大和对用户行为实时提取分析的需要越来越高，传统的BI架构对实时性的分析和大数据量的分析已经无法满足，新的数据分析的解决方案便呼之欲出。

得益于hadoop对大数据和分布式计算的优势、以及丰富的组件，使用hadoop进行BI架构便方便许多。

一个典型的基于hadoop的BI架构如下图所示：

该BI架构主要包括2部分：实时处理部分、离线批处理部分。

实时处理部分：

功能主要是实时获取用户的网站、app等访问记录，分析用户行为轨迹，其数据来源一般是访问日志。
数据流：通过flume实时拉取服务器的日志，并将其发送至spark和hadoop。spark利用spark structured streaming组件接收flume发送的日志数据，并在一定的窗口和周期下进行计算。提取出一些用户在此时的基本行为过程，并将结果存储至hbase。这一过程中，会涉及高频的数据读写和计算需求、特别是flume和spark这一块的话对内存的需求量比较大，需要做好硬件配置的规划。同时将日志数据写入一份至hadoop，主要是为了做离线分析的需要。

离线批处理部分：

功能主要是对业务数据(如进销存等)做一些统计分析，这一部分是传统BI项目。同时，结合业务数据和离线日志，可以做一些机器学习方面的应用，比如离线训练推荐系统、预测模型等。这一部分的计算量通常比较大，一般是会安排在机器闲时的时候进行。
数据流：业务数据主要是通过sqoop将mysql数据以增量的形式导入hive，日志数据是在实时处理部分已经将其存入了hadoop中，这里直接拿来用就好了。这里的统计分析和机器学习应用可以依赖于hive和spark处理，比较方便。最终的分析结果存入mysql数据库，同时模型可以直接输出，验证之后拿来用。

web服务器部分：

主要有2方面功能：(1)提供数据可视化，由于通常展现形式的图形、图表、地图，这一部分会涉及到比较多的前端插件如ECharts、地图api等。(2)机器学习获得的模型在这里调用，其他应用程序则只需要提交请求则可获得模型的预测结果，将模型与其它服务解耦，方便模型的迭代，同时其他应用程序调用起来也很方便、只需要一个http请求即可。

架构的基本组成部分介绍的差不多了，其实这一块基本是通用的了。数据产品的核心还是在于数据的前处理、分析挖掘上面，由于工作利益相关在此不多做介绍，本质还是结合业务、市场等提供一些有价值的信息。

基于hadoop的BI架构的更多相关文章

基于Hadoop的大数据平台实施记——整体架构设计[转]
http://blog.csdn.net/jacktan/article/details/9200979 大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底 ...
基于Hadoop的大数据平台实施记——整体架构设计
大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底是否适用于您的组织,至少在互联网上已经被吹嘘成无所不能的超级战舰.好像一夜之间我们就从互联网时代跳跃进了大 ...
基于Hadoop开发网络云盘系统架构设计方案
基于Hadoop开发网络云盘系统架构设计方案第一稿引言云计算技术的发展,各种网络云盘技术如雨后春笋,层出不穷,百度.新浪.网易都推出了自己的云盘系统,本文基于开源框架Hadoop设计实现了一套自己 ...
基于Hadoop的数据仓库Hive
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hi ...
Amazon EMR（Elastic MapReduce）：亚马逊Hadoop托管服务运行架构&Hadoop云服务之战：微软vs.亚马逊
http://s3tools.org/s3cmd Amazon Elastic MapReduce (Amazon EMR)简介 Amazon Elastic MapReduce (Amazon EM ...
基于hadoop的数据仓库工具：Hive概述
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类 ...
[转] X-RIME: 基于Hadoop的开源大规模社交网络分析工具
转自http://www.dataguru.cn/forum.php?mod=viewthread&tid=286174 随着互联网的快速发展,涌现出了一大批以Facebook,Twitter ...
Hadoop工程包架构解析
Hadoop源码解析 1 --- Hadoop工程包架构解析 1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台.Google的大牛们用了下面5篇文章,介绍了它们的计算 ...
基于Hadoop开发网络云盘系统客户端界面设计初稿
基于Hadoop开发网络云盘系统客户端界面设计初稿前言: 本文是<基于Hadoop开发网络云盘系统架构设计方案>的第二篇,针对界面原型原本考虑有两个方案:1.类windows模式,文件夹 ...

随机推荐

【基础】在css中绘制三角形及相关应用
简言本文简要阐述了用CSS边框的方法在页面上绘制三角形,包括几种典型的三角形绘制,还介绍了几个简单的应用场景.利用边框绘制三角形方法只是众多方案中的一种,大家根据项目实际,选用最适宜项目的方案. 1 ...
3.3.4 配置Tomcat的<Context>元素（转）
本章3.3.2节已经介绍了在Tomcat中发布JavaWeb应用的最快捷的方式,即只需把JavaWeb应用的所有文件复制到<CATALINA_HOME>/webapps目录下即可,Tomc ...
Lua版组合算法
高效率的排列组合算法--<编程珠矶>--Lua实现原文链接原文是python实现的,这里给出lua版本的实现组合算法本程序的思路是开一个数组,其下标表示1到m个数,数组元素 ...
div中的内容超过容器宽度的问题
问题描述: <div class="category"> <div class="column-a">排名</div> ...
dropzone.js使用实践
官网地址:http://www.dropzonejs.com/ 一,它是什么: DropzoneJS is an open source library that provides drag'n'dr ...
[HEOI2015]兔子与樱花
Description 很久很久之前,森林里住着一群兔子.有一天,兔子们突然决定要去看樱花.兔子们所在森林里的樱花树很特殊.樱花树由n个树枝分叉点组成,编号从0到n-1,这n个分叉点由n-1个树枝连接 ...
【HNOI2004】L语言
题目描述标点符号的出现晚于文字的出现,所以以前的语言都是没有标点的.现在你要处理的就是一段没有标点的文章. 一段文章T是由若干小写字母构成.一个单词W也是由若干小写字母构成.一个字典D是若干个单词的 ...
[Noi2013]向量内积
来自FallDream的博客,未经允许,请勿转载,谢谢. 两个d 维向量A=[a1,a2,...,ad]与B=[b1,b2,...,bd]的内积为其相对应维度的权值的乘积和,即: $\sum_{i=1 ...
[bzoj1143][CTSC2008]祭祀
题意:给定一个n个点m条边的有向无环图,你要选出最多的点,并且满足任意两点之间都不存在通路.2)输出每个点选了它之后还是否有最优解. n<=100 m<=1000 题解:每个点拆两个点 ...
Unix系统的文件打开机构
当打开一个文件时,建立用户与该文件的联系.其实质是将该文件在辅存中的有关目录信息.辅存i节点及相应的文件地址索引表拷贝到主存中.文件系统中管理这一方面的机构成为打开文件管理机构,简称打开文件机构. 打 ...