搞大数据,你不懂这三大数据处理趋势就OUT了

企业数据每年以PB级甚至上百PB爆炸式增长,越来越大的数据量正为扩大分析策略在企业应用软件领域的拓展提供了数据基础,但数据的价值是有时效性的,越早分析越能得到更快的问题反馈或响应,而离线分析缺点显然是不能及时地利用数据中所蕴含的深层价值,因此,如何针对海量数据进行毫秒级在线分析,就成为挑战和新兴话题。

占超群,花名(离哲)来自阿里巴巴集团数据库事业部资深技术专家,拥有10年数据处理及分析经验。他表示,最初的数据分析基于OLTP数据库来做,到了2005年大数据开始兴起,2009年hadoop名声大噪。众所周知,Hadoop的设计初衷是存储与分析离线大数据,数据虽然能被处理,但问题也很多,比如太慢,数据不够集中等,而阿里生态足够大,众多商家和广告主一直希望利用数据驱动业务,因此,催生了阿里大规模在线化分析诉求,并且阿里集团绝大部分数据业务都是在线化的;最近三年,他也和客户一起,充分利用阿里云分析型数据库的极速低成本能力,驱动外部的公安、物流、营销、电力等行业客户实现数据分析在线化;也就有了他在2017中国系统架构师大会上的分享,阿里巴巴大数据分析在线化和开放化的实践。
离哲的分享主要有3部分,趋势、案例及解决方案。
目前,数据处理呈现出3大重要趋势,其一是从离线到在线的趋势,圈里现在基本都不怎么提离线分析了,而是在讨论在线分析。第二个趋势是从统计到AI的趋势,用AI技术去做数据处理不再是未来的事儿,而是现在已经正在发生着。第三个趋势是在线分析平台化,支持多样化的数据如文本、Json、图片等,实现数据融合、统一、联合计算。
他认为,这些趋势在未来的5年以内,会在中国乃至全球普及,未来数据分析是开放化、在线化的时代。他还指出,对未来企业业务的改造,怎么样让数据部门不再是企业的负担,而是一种增值,也是个很重要的探索方向。
PB级大数据在线分析对数据计算的要求不仅要面对越来越大的数据量能被在线计算,更要求实时,几秒内返回,还可以被界面交互,并且可以让人人都可以当分析师,同时可以去探索,需要足够的开放性。
目前阿里大数据分析在线化和开放化的实践,主要应用于电商业务、营销业务、O2O、交通、物流、娱乐、金融、征信、安全等几十个场景。涉及营销管理,安全风控,推荐,预测,洞察等多个方面。

  ▲在线分析交通行业应用实践


▲在线分析公安行业应用实践
在阿里强势领域电商的应用就不多说,让人眼睛一亮的是在交通、安全行业的应用。
最后,是演讲中最精华的部分,阿里大数据分析在线化和开放化是怎么应用的,都在典型业务架构图中。

架构图中,我们发现与众不同的是AnalyticDB,这是阿里自研的大规模高性能分析型数据库,其实AnalyticDB并不是个新产品。会后,离哲在接受笔者采访时表示,AnalyticDB在2014年就上云了,主要目标是做极速低成本的PB级实时数据仓库。
AnalyticDB主打三个功能:一、低成本;二、极速分析,包含延迟,并发上做到极速。三、上层提供了足够好的应用性,让用户能像用单机数据库一样,绝大部分语言和工具,都能连接。用户可以通过任何BI工具,甚至excel都能连接上来做分析,其目的是让阿里的在线分析能力能被用户以足够低的成本连接和被使用。

  离哲最后表示,AnalyticDB目标是能让数据价值被发现,通过数据价值的实时性,数据探索的实时性,去驱动商业变革。

搞大数据,你不懂这三大数据处理趋势就OUT了的更多相关文章

  1. 搞大数据,Java 工程师需要掌握哪些知识?

    先看再点赞,给自己一点思考的时间,微信搜索[沉默王二]关注这个有颜值却假装靠才华苟且的程序员.本文 GitHub github.com/itwanger 已收录,里面还有一线大厂整理的面试题,以及我的 ...

  2. 都 2021 年了,竟然有人搞大数据时忽略 JSON 而去研究用 C# 把 XML 转换为 XML 的技术

    在大数据项目开发过程中,ETL(Extract-Transform-Load)是必不可少.即便目前 JSON 非常流行,开发人员也有必定会有对远古系统的挑战,而 XML 格式的数据源作为经典存在浑身上 ...

  3. 【大数据技术】Hadoop三大组件架构原理(HDFS-YARN-MapReduce)

    目前,Hadoop还只是数据仓库产品的一个补充,和数据仓库一起构建混搭架构为上层应用联合提供服务. Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起. ...

  4. 谁说.NET不适合搞大数据,机器学习、人工智能

    SciSharp Stack SciSharp STACK: https://scisharp.github.io/SciSharp/ 基于.NET的开源生态系统,用于数据科学.机器学习和AI. Sc ...

  5. 谈B2B电商平台与大数据

    数据为王,服务为本——谈B2B电商平台与大数据 2013-06-27 11:10:41 作者:B2B行业资讯 标签:                             大数据           ...

  6. 2018年,Java程序员转型大数据开发,是不是一个好选择?

    近日网上有一篇关于Java程序员职场生存现状的文章“2017年 Java 程序员,风光背后的危机”,在Java程序员圈子里引起了广泛关注和热议. 2017年,Java 程序员面临更加激烈的竞争. 不得 ...

  7. 分布式处理与大数据平台(RabbitMQ&Celery&Hadoop&Spark&Storm&Elasticsearch)

    热门的消息队列中间件RabbitMQ,分布式任务处理平台Celery,大数据分布式处理的三大重量级武器:Hadoop.Spark.Storm,以及新一代的数据采集和分析引擎Elasticsearch. ...

  8. 杂项:大数据 (巨量数据集合(IT行业术语))

    ylbtech-杂项:大数据 (巨量数据集合(IT行业术语)) 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞 ...

  9. 大数据框架:Spark vs Hadoop vs Storm

    大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生. 知识预热 「专治不明觉厉」之“大数据”: 大数据生态圈及其技术栈: 关于大数据的四大特征(4V) 海量的数据规模( ...

随机推荐

  1. SolidWorks新建三维零件

    1.创建工作目录. 2.新建一个零件三维模型文件. 3.创建零件中的各个特征 (1).创建第一个特征(基础特征) ①选择命令 ②创建截面草图 定义草图平面 定义截面草图 完成草图 ③定义深度等属性 定 ...

  2. .net core 读取appsetting.json

    1.在appsetting.json 文件中添加自定义配置 { "Logging": { "LogLevel": { "Default": ...

  3. leetcood学习笔记-59-螺旋矩阵二

    题目描述: 参考后的提交: class Solution: def generateMatrix(self, n: int): #l = [[0] * n] * n 此创建方法错误 l = [[] f ...

  4. delphi xe10 手机程序事件服务操作、退出键操作

    //程序事件服务操作 var FMXApplicationEventService: IFMXApplicationEventService; begin if TPlatformServices.C ...

  5. 阿里巴巴IPv6应用平台引领下一代互联网

    摘要: 据预测,到2020年底我国IPv6终端设备将达到5亿,正在快速取代IPv4.阿里巴巴网络架构师张先国先生在2018 年GNTC 大会IPv6 专场上分享IPv6应用集团业务(支付宝.淘宝.天猫 ...

  6. tomcat部署安全证书文件(阿里云SSL证书)

    1.下载安全证书文件: 这里使用的是阿里云SSL证书(免费一年) 2.把下载的压缩包进行解压 3.将pfx文件拷贝至服务器 4.利用jdk将pfx转jks 5.cmd进入命令行 6.切换至jdk的bi ...

  7. 再学 GDI+文本输出文本样式

    代码文件: unit Unit1; interfaceuses   Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls ...

  8. 了解Metasploit中的Payloads(有效载荷)

    什么是payload? payload又称为攻击载荷,主要是用来建立目标机与攻击机稳定连接的,可返回shell,也可以进行程序注入等.也有人把payloads称 为shellcode. Shellco ...

  9. FlyMcu下载时的问题

    引用:http://www.openedv.com/forum.php?mod=viewthread&tid=69398&page=1#pid396135 和楼下李智鹏用普中科技的ST ...

  10. JDBC_入门及注入问题

    .JDBC基本概念: java database Connectivity java数据库连接,java语言操作数据库 本质: 官方定义的一套操作所有关系型数据库的规则,即接口. 各个数据库厂商实现这 ...