搞大数据,你不懂这三大数据处理趋势就OUT了

企业数据每年以PB级甚至上百PB爆炸式增长,越来越大的数据量正为扩大分析策略在企业应用软件领域的拓展提供了数据基础,但数据的价值是有时效性的,越早分析越能得到更快的问题反馈或响应,而离线分析缺点显然是不能及时地利用数据中所蕴含的深层价值,因此,如何针对海量数据进行毫秒级在线分析,就成为挑战和新兴话题。

占超群,花名(离哲)来自阿里巴巴集团数据库事业部资深技术专家,拥有10年数据处理及分析经验。他表示,最初的数据分析基于OLTP数据库来做,到了2005年大数据开始兴起,2009年hadoop名声大噪。众所周知,Hadoop的设计初衷是存储与分析离线大数据,数据虽然能被处理,但问题也很多,比如太慢,数据不够集中等,而阿里生态足够大,众多商家和广告主一直希望利用数据驱动业务,因此,催生了阿里大规模在线化分析诉求,并且阿里集团绝大部分数据业务都是在线化的;最近三年,他也和客户一起,充分利用阿里云分析型数据库的极速低成本能力,驱动外部的公安、物流、营销、电力等行业客户实现数据分析在线化;也就有了他在2017中国系统架构师大会上的分享,阿里巴巴大数据分析在线化和开放化的实践。
离哲的分享主要有3部分,趋势、案例及解决方案。
目前,数据处理呈现出3大重要趋势,其一是从离线到在线的趋势,圈里现在基本都不怎么提离线分析了,而是在讨论在线分析。第二个趋势是从统计到AI的趋势,用AI技术去做数据处理不再是未来的事儿,而是现在已经正在发生着。第三个趋势是在线分析平台化,支持多样化的数据如文本、Json、图片等,实现数据融合、统一、联合计算。
他认为,这些趋势在未来的5年以内,会在中国乃至全球普及,未来数据分析是开放化、在线化的时代。他还指出,对未来企业业务的改造,怎么样让数据部门不再是企业的负担,而是一种增值,也是个很重要的探索方向。
PB级大数据在线分析对数据计算的要求不仅要面对越来越大的数据量能被在线计算,更要求实时,几秒内返回,还可以被界面交互,并且可以让人人都可以当分析师,同时可以去探索,需要足够的开放性。
目前阿里大数据分析在线化和开放化的实践,主要应用于电商业务、营销业务、O2O、交通、物流、娱乐、金融、征信、安全等几十个场景。涉及营销管理,安全风控,推荐,预测,洞察等多个方面。

  ▲在线分析交通行业应用实践


▲在线分析公安行业应用实践
在阿里强势领域电商的应用就不多说,让人眼睛一亮的是在交通、安全行业的应用。
最后,是演讲中最精华的部分,阿里大数据分析在线化和开放化是怎么应用的,都在典型业务架构图中。

架构图中,我们发现与众不同的是AnalyticDB,这是阿里自研的大规模高性能分析型数据库,其实AnalyticDB并不是个新产品。会后,离哲在接受笔者采访时表示,AnalyticDB在2014年就上云了,主要目标是做极速低成本的PB级实时数据仓库。
AnalyticDB主打三个功能:一、低成本;二、极速分析,包含延迟,并发上做到极速。三、上层提供了足够好的应用性,让用户能像用单机数据库一样,绝大部分语言和工具,都能连接。用户可以通过任何BI工具,甚至excel都能连接上来做分析,其目的是让阿里的在线分析能力能被用户以足够低的成本连接和被使用。

  离哲最后表示,AnalyticDB目标是能让数据价值被发现,通过数据价值的实时性,数据探索的实时性,去驱动商业变革。

搞大数据,你不懂这三大数据处理趋势就OUT了的更多相关文章

  1. 搞大数据,Java 工程师需要掌握哪些知识?

    先看再点赞,给自己一点思考的时间,微信搜索[沉默王二]关注这个有颜值却假装靠才华苟且的程序员.本文 GitHub github.com/itwanger 已收录,里面还有一线大厂整理的面试题,以及我的 ...

  2. 都 2021 年了,竟然有人搞大数据时忽略 JSON 而去研究用 C# 把 XML 转换为 XML 的技术

    在大数据项目开发过程中,ETL(Extract-Transform-Load)是必不可少.即便目前 JSON 非常流行,开发人员也有必定会有对远古系统的挑战,而 XML 格式的数据源作为经典存在浑身上 ...

  3. 【大数据技术】Hadoop三大组件架构原理(HDFS-YARN-MapReduce)

    目前,Hadoop还只是数据仓库产品的一个补充,和数据仓库一起构建混搭架构为上层应用联合提供服务. Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起. ...

  4. 谁说.NET不适合搞大数据,机器学习、人工智能

    SciSharp Stack SciSharp STACK: https://scisharp.github.io/SciSharp/ 基于.NET的开源生态系统,用于数据科学.机器学习和AI. Sc ...

  5. 谈B2B电商平台与大数据

    数据为王,服务为本——谈B2B电商平台与大数据 2013-06-27 11:10:41 作者:B2B行业资讯 标签:                             大数据           ...

  6. 2018年,Java程序员转型大数据开发,是不是一个好选择?

    近日网上有一篇关于Java程序员职场生存现状的文章“2017年 Java 程序员,风光背后的危机”,在Java程序员圈子里引起了广泛关注和热议. 2017年,Java 程序员面临更加激烈的竞争. 不得 ...

  7. 分布式处理与大数据平台(RabbitMQ&Celery&Hadoop&Spark&Storm&Elasticsearch)

    热门的消息队列中间件RabbitMQ,分布式任务处理平台Celery,大数据分布式处理的三大重量级武器:Hadoop.Spark.Storm,以及新一代的数据采集和分析引擎Elasticsearch. ...

  8. 杂项:大数据 (巨量数据集合(IT行业术语))

    ylbtech-杂项:大数据 (巨量数据集合(IT行业术语)) 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞 ...

  9. 大数据框架:Spark vs Hadoop vs Storm

    大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生. 知识预热 「专治不明觉厉」之“大数据”: 大数据生态圈及其技术栈: 关于大数据的四大特征(4V) 海量的数据规模( ...

随机推荐

  1. docker启动elasticsearch异常Failed to create node environment(解决)

    异常说是创建节点环境失败,操作/usr/share/elasticsearch/data/nodes的IO错误,尝试给此目录添加读写权限后,依旧没什么**用,灵机一动是不是挂载目录没有权限导致的? c ...

  2. Centos 14: problem making ssl connection

    在执行 yum 命令时,会提示 Loaded plugins: fastestmirror Loading mirror speeds from cached hostfile Could not g ...

  3. DOM 对象和jQuery对象的转换

    <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...

  4. Spring中使用到的设计模式

    1.工厂模式:Beanfactory和ApplicationContext 2.单例模式:bean的构建 3.代理模式:AOP 4.模板模式:jdbcTemplate,hibernateTemplat ...

  5. javafx教程大全

    链接: https://www.yiibai.com/javafx

  6. Centos7.5安装mysql 8.0.11

    一.安装前准备 安装采用二进制包方式,软件包8.0.11版本下载地址: https://cdn.mysql.com//Downloads/MySQL-8.0/mysql-8.0.11-linux-gl ...

  7. Spring 源码学习——加载 Bean

    继上次注册 bean 之后好久没更新,这两天有空查了查资料也自己看了看 spring BeanFactory 的 getBean(beanName); 这个方法.因时间有限不能像之前那样复制代码并一行 ...

  8. 关于DEBUG的一点体会

    目录 1. 看待问题 2. 为什么要debug 3. 我理解的问题定位能力 4. debug能力模型的4个层级 5. 小结与扩展 1. 看待问题 遇到更高级的bug,解决更重要的问题,是开发同学的迭代 ...

  9. json-lib 的maven dependency 一直找不到jar 包

    项目中要用到json-lib,mvnrepository.com查找它的dependency时结果如下: xml 代码 <dependency> <groupId>net.sf ...

  10. SQL Server 阻止了对组件 'Ad Hoc Distributed Queries' 的 STATEMENT'OpenRowset/OpenDatasource' 的访问 (也就是跨数据库访问出错)

    delphi ado 跨数据库访问 语句如下 ' and db = '帐套1' 报错内容是:SQL Server 阻止了对组件 'Ad Hoc Distributed Queries' 的 STATE ...