某公司基于FineBI数据决策平台的试运行分析报告
一、数据平台的软硬件环境
二、组织机构和权限体系
组织机构:平台中已集成一套组织机构,可以建立部门、人员。也可以与现有系统的组织机构集成,将组织机构导入到平台中。
功能权限:通过配置功能点URL的方式实现各个用户相应的BI访问权限。用户第一次访问受保护的资源(某个功能点)时,会发出访问请求,服务器接收到请求后会验证用户权限,如果没有通过验证则返回登录页面。
数据权限:很多系统的权限认证只是限制模块的使用,使得合法用户能够行使自己的权利。平台在满足这种整体权限认证的同时,权限的控制力度可以达到同一张BI的内容在不同权限下展示的效果不一样,这样就免除了制作大量的BI来实现同样效果,尤其是在企业内部业务繁杂,审批麻烦时,一张BI就可以解决所有问题。平台通过对业务包的权限控制,从数据包层面控制了不同的用户对于数据的权限,以达到数据的细粒度控制。
权限控制的层次:
- 不同用户对于数据业务包的数据权限仅限于自己权限范围内。
- 不同的用户可以访问权限范围内的报表。
- 不同的用户对于同一张报表,只能够访问权限范围内的数据。
三、数据处理
数据源:支持Oracle,DB2,SQLServer,MySQL,SqlServer,Informix等数据源。支持ODBC数据源,支持JNDI数据源,支持共享应用服务器数据源。支持程序数据接口。支持文本数据源。支持内置数据集。
业务数据包:即Cube,是用于即时分析的数据基础。数据业务包由数据管理员创建,其中包含着能够提供给分析人员的所有业务数据表、数据集、接口数据、文本数据等。以文件的形式(后缀名为fcube)存放在服务器目录中。
数据转义
可以对数据业务包中的表名以及字段名进行转义,成为能够让业务人员理解的数据,转义的信息可以直接集成数据库中的注释,也可以直接手动编辑。
数据关联
数据之间的关联是用于给多个表之间建立表间关系,也可以直接继承数据库中定义的外键关系 。参与关联关系的表必须有主键支撑。
四、数据转化
数据转化:提供各种样式的表格和多种图表服务,配合各种业务需求展现数据。包括列表、分组、交叉表格,图表类型包括柱形图、条形图、饼图、面积图、组合图、仪表盘和地图。
新增列:通过自定义数据列来实现数据转换和数据计算。包括根据现有的数据新增列,构建自循环列,根据公式构建自定义数据列。更方便地用于后面的分析。
根据现有的数据新增列:在现有的数据列的基础上,通过自定义分组形成新的列。主要用于建立公用的自定义分组的方式,提供给所有的分析人员使用。
构建自循环列:可以根据一列(数据库中只有一列组织ID)或者两列(数据库中有组织ID和父ID)数据分层,将组织机构的层级关系分层展示。主要用于组织树展示。
新增公式列:公式引擎支持数据类型转化,常用函数、数学和三角函数、文本函数、日期和时间函数、逻辑函数、数组函数、报表函数以及其他自定义函数
。
行列转换:行列转换主要用于将数据库中某一列的字段值与其他指标字段结合成新的字段。
五、定时更新
全量更新:所有的数据业务包建立的时候,数据平台会在后台自动生成对应的cube。数据平台的cube采用MOLAP的形式,所以在处理大数据量的问题上具有优良的支撑。cube中的数据可以设置定时全量更新。
增量更新:只能单独对业务包中的表和数据集进行设置。并且只对新增数据有效。
六、数据分析
维度指标分析:可以灵活地从业务包中选择任意指标、维度进行自主地拖拽分析。由于数据业务包中的数据已经关联在了一起,这就决定了数据平台即时分析的自由度。在分析某个指标的影响因素时,可以选择任意的维度,去分析他们之间的关系。从而确定某个因素对指标的影响大小。
分析组件:组件支持各种样式的表格,配合各种业务需求展现数据。包括列表、分组、交叉表格。组件支持多种图表,图表类型包括柱形图、条形图、饼图、面积图、组合图、仪表盘和地图。页面上生成表格,转换图表、添加钻取、过滤筛选、添加控件等一系列交互设置,操作简单。通过拖拽指标和维度生成的表格,可以一键切换至图表。
平台支持多种图表且类型可以随意切换,支持的图标类型有:柱形图、柱形堆积图、折线图、堆积面积图、组合图、条形图、堆积条形图、饼图、仪表盘、地图。
汇总数据统计方式多样:指标支持求和,平均,最大值、最小值等等一系列统计方式提供选择。
支持多种计算指标的方式:指标可以来自于字段,同时也可以是通过公式计算得来。在计算同比、环比、排名的时候,只需配置一下界面,即可得到想要的结果。无需通过复杂的公式。
数据预警:支持数据预警功能,对于在某个数据区间的数据可以进行红绿灯预警或者数据前景预警。
多维OLAP分析:平台提供了各种常见的OLAP分析操作,可以进行任意多维度的分析,钻取分析、排序、过滤等等分析功能。
任意多维度分析:平台提供任意维度的数据分析,针对要分析的数据,可以任意添加需要分析的维度。图表设置过程类似,需要注意的是绝大多数的图表无需刻意添加分析。支持任意维度切换,可以对已有的表样切换维度来进行自由分析。
多层钻取:由于维度数据的关系在建立数据cube的时候已经建立好,则可以对维度直接通过分组以及层级设置进行多层钻取。设置了数据关联的数据之间,可以进行多层钻取设置,通过多层钻取查看数据的详细值。
排序:基于查询出来的结果的排序,根据维度自身进行排序,根据汇总指标的大小对维度进行排序展示,根据公式值进行排序。可以进行升序、降序和自定义排序。选择了排序方式,数据会根据所选排序方式自动排序。排序为全局排序,分页显示后并不影响排序结果。
七、技术特性
数据平台数据仓库技术要点
- 动态生成的位图索引技术处理字符串等类型. NIO内存映射文件技术,快速读取处理数字类型.
- 支持离线使用的cube数据存储,支持cube数据定时全量以及增量更新. 动态的内存数据立方体技术,并行计算的数据处理模式.
- 基于位图索引的快速分组,过滤,钻取,支持多线程运算,互不干扰. 的位图索引压缩技术. 避免重复计算的缓存机制.
数据平台数据建模及数据应用流程
- 数据库生成Cube文件,该cube文件会根据原始数据建立一定的数据模型。
- 访问设计报表时,预先加载需要使用的字段的位图索引到内存,增大命中率。
- 处理分组时,使用位图索引,对数据进行处理,经过转换生成需要的结果,再使用多线程分组,多线程与内存映射文件生成汇总结果。并将结果建立一定的数据立方体模型,在下次取数,和部分取数时避免重复计算。
数据平台模块
分析数据关联
当最终用户在分析数据时,很可能需要将数据建模时没有建立关联关系的数据关联起来做为整体查看分析,而在处理此类问题时就往往需要技术人员的支持,需要额外的数据建模工作,平台根据用户的语义,提供关联设置,并将数据关联,只要明白语义即可得到所需数据。
指标影响因素分析
某个指标或者汇总数据往往会受到很多因素的影响,例如销售额会受到产品质量,销售地区,时间,销售人员,代理商,销售策略,同类竞争产品价格等等因素的影响,而当最终客户进行分析时需要对全盘的影响因素都有了解。以往的BI工具是提前将这些分析维度加入最终展现层让领导或者业务人员去选择,这样的问题有两个不利因素:沟通成本高,需要让技术人员清晰明了业务需求;修改影响因素复杂,添加删除因素需要通知技术人员。平台的因素分析直接面向最终分析人员,通过优化的算法提供所有影响因素,并且判断重点因素。
八、优势总结
- 大数据量的处理性能优秀
数据平台的数据处理,采用表间自动关联以及手动建立关联来实现数据之间的关系,使得数据根据业务关系有着完整的数据结构。理解业务的用户,只需要根据业务选择相应的数据,即可以进行分析数据。
- 数据平台数据建模及数据应用流程
数据库生成cube文件,该cube文件会根据原始数据建立一定的数据模型。
访问设计报表时,预先加载需要使用的字段的位图索引到内存,增大命中率。
处理分组时,使用位图索引,对数据进行处理,经过转换生成需要的结果,再使用多线程分组,多线程与内存映射文件生成汇总结果。并将结果建立一定的数据立方体模型,在下次取数,和部分取数时避免重复计算。
分组速度快,各个分组,汇总之间互不干扰,利于多线程计算以及分布式部署优化。支持部分计算,分组汇总不需要计算所有的值。列表速度不受限于数据量。
当最终用户在分析数据时,很可能需要将数据建模时没有建立关联关系的数据关联起来做为整体查看分析,而在处理此类问题时就往往需要技术人员的支持,需要额外的数据建模工作,平台根据用户的语义,提供关联设置,并将数据关联,只要明白语义即可得到所需数据。
非IT人员可以进行即时分析
传统BI的繁杂之处主要体现在两个方面:
第一:技术人员需要花费大量时间准备数据。用于分析的底层数据分布在不同的地方,如果要让这些数据百分百地满足业务需求,那么就需要对数据进行额外的处理,根据传统BI提供的工具建立符合其工具的数据模型,而这个过程根据业务的复杂程度所需的时间在几个月不等。
第二:业务人员基于数据偶得的一些分析需求实现过程复杂。传统BI的模式都是预先了解领导和业务人员的所有业务需求,然后基于这些需求准备数据设计以报表形式展现数据的分析过程,当决策分析者在分析过程中有额外的想法时,基于传统的设计模式,她们还需要和技术人员进行沟通,准备新的数据或者设计新的分析过程,然后才能得到自己想要的分析,这个过程还包括了让技术人员理解自己的需求,所以综上看来整个过程是相当复杂的。
平台的Data Service模块,具有的分析设计模式和指标影响因素智能分析模块,能够解决以上问题,让技术人员准备数据时无需任何代码和复杂的设置过程,让非IT人员参与开发编程成为可能。
某公司基于FineBI数据决策平台的试运行分析报告的更多相关文章
- Tapdata 实时数据融合平台解决方案(三):数据中台的技术需求
作者介绍:TJ,唐建法,Tapdata 钛铂数据 CTO,MongoDB中文社区主席,原MongoDB大中华区 首席架构师,极客时间MongoDB视频课程讲师. 我们讲完了这个中台的一个架构和它的逻 ...
- 基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企 业急需引入hadoop技术人才.由于掌握Hadoop技术的开发 ...
- 打造实时数据集成平台——DataPipeline基于Kafka Connect的应用实践
导读:传统ETL方案让企业难以承受数据集成之重,基于Kafka Connect构建的新型实时数据集成平台被寄予厚望. 在4月21日的Kafka Beijing Meetup第四场活动上,DataPip ...
- 基于datax的数据同步平台
一.需求 由于公司各个部门对业务数据的需求,比如进行数据分析.报表展示等等,且公司没有相应的系统.数据仓库满足这些需求,最原始的办法就是把数据提取出来生成excel表发给各个部门,这个功能已经由脚本转 ...
- 基于MaxCompute的媒体大数据开放平台建设
摘要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大数据和人工智能技术,致力于为媒体行业赋能.通过媒体大数据开放平台,将媒体行业全网数据汇总起来,借助平台数据处理能力和算法能力,将有 ...
- 三:基于Storm的实时处理大数据的平台架构设计
一:元数据管理器==>元数据管理器是系统平台的“大脑”,在任务调度中有着重要的作用[1]什么是元数据?--->中介数据,用于描述数据属性的数据.--->具体类型:描述数据结构,数据的 ...
- 联童科技基于incubator-dolphinscheduler从0到1构建大数据调度平台之路
联童科技是一家智能化母婴童产业平台,从事母婴童行业以及互联网技术多年,拥有丰富的母婴门店运营和系统开发经验,在会员经营和商品经营方面,能够围绕会员需求,深入场景,更贴近合作伙伴和消费者,提供最优服务产 ...
- 大数据征信的应用和启示:ZestFinance的基于大数据的信用评估技术
http://www.d1net.com/bigdata/news/325426.html 2014年11月,本文作者有机会和ZestFinance的创始人和首席执行官梅里尔(Douglas C.Me ...
- 初创电商公司Drop的数据湖实践
欢迎关注微信公众号:ApacheHudi 1. 引入 Drop是一个智能的奖励平台,旨在通过奖励会员在他们喜爱的品牌购物时获得的Drop积分来提升会员的生活,同时帮助他们发现与他们生活方式产生共鸣的新 ...
随机推荐
- 拾遗与填坑《深度探索C++对象模型》3.3节
<深度探索C++对象模型>是一本好书,该书作者也是<C++ Primer>的作者,一位绝对的C++大师.诚然该书中也有多多少少的错误一直为人所诟病,但这仍然不妨碍称其为一本好书 ...
- Zookeeper的安装配置及基本开发
一.简介 Zookeeper 是分布式服务框架,主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务.状态同步服务.集群管理.分布式应用配置项的管理等等. ZooKeeper的目标就 ...
- android开发中使用到的一些设计者模式
单例模式 概念:确保一个类只有一个实例,并且自行实例化并向整个系统提供整个实例. public class Singleton { private static volatile Singleton ...
- 2014 BDTC 参会有感
中国大数据技术大会(Big Data Technology Conference,BDTC)是目前国内最具影响.规模最大的大数据领域的技术盛会.大会的前身是Hadoop中国云计算大会(Hadoop i ...
- Dynamics CRM2016 查询数据的三种方式的性能对比
之前写过一个博客,对非声明验证方式下连接组织服务的两种方式的性能进行了对比,但当时只是对比了实例化组织服务的时间,并没有对查询数据的时间进行对比,那有朋友也在我的博客中留言了反映了查询的时间问题,一直 ...
- SpriteKit:检测当新场景显示以后
Detecting When a New Scene Is Presented Sprite Kit在SKScene类中提供2个可以重载的方法用来检测当一个场景过渡出去或过渡进来的时候. 第一个方法是 ...
- [nginx]统计文件下载是否完整思路(flask)
有一个需求是统计文件是否被用户完整下载,因为是web应用,用js没有找到实现方案,于是搜索下nginx的实现方案,把简单的探索过程记录下. 实验一 最原始的思路,查看日志,下载了一个文件之后我们看日志 ...
- mysql进阶(二十七)数据库索引原理
mysql进阶(二十七)数据库索引原理 前言 本文主要是阐述MySQL索引机制,主要是说明存储引擎Innodb. 第一部分主要从数据结构及算法理论层面讨论MySQL数据库索引的数理基础. ...
- 剑指Offer——丑数
剑指Offer--丑数 前言 参照<剑指Offer>,通过洞悉其思想并消化吸收,改为java实现,供自己以后巩固. package cn.edu.ujn.offersword; i ...
- 内存管理单元--MMU
现代操作系统普遍采用虚拟内存管理(Virtual Memory Management)机制,这需要处理器中的MMU(Memory Management Unit,内存管理单元)提供支持,本节简要介绍M ...