摘要:一个统一的现代化的数据基建需要三类架构来实践三种不同的应用场景。

近期,美国知名科技企业风投机构A16Z总结出一套通用的技术架构服务,分为以下三种场景。

一、数据基建架构全景

数据流向显示,左侧的数据源经数据处理(批量、实时流、事件流等)将数据统一汇聚到数据湖或数仓中,通过数据科学或机器学习进行AI分析,通过AD Hoc和实时分析为客户或APP提供敏捷的结果数据。华为云FusionInsight为政企客户提供一站式全场景的云原生数据湖,围绕政企客户在采存算管用等数据全生命周期提供领先的整体解决方案,方案主要包含MRS大数据、DWS数据仓库、一站式数据治理中心等云服务,助力政企客户释放海量数据价值!其架构如下:

上千个大型客户已经基于FusionInsight架构构建其大数据应用平台。

A16Z经过调查相关业内人士得出一个结论:一个统一的现代化的数据基建需要三类架构来实践三种不同的应用场景。

  1. 现代化 BI 架构
  2. 多模式数据处理架构
  3. 人工智能和机器学习架构

1.现代化 BI 架构

这是对小型数据团队和预算有限的企业的默认选项,企业逐渐从传统数仓迁移到这个架构,利用云的灵活度和可扩展性。

应用场景包含:报表,仪表盘,自助式分析,主要使用SQL来分析结构化数据。

  • 优势:前期投入低,启动快,市场上人才储备充分。
  • 缺陷:对于数据场景复杂的团队不适用,比如需要数据科学,机器学习,或者实时场景。

传统的小型数据团队其面对的数据基本以核心交易系统的RDBMS结构化数据为主,数据量在GB级,普通的数仓都可支持其数据的分析挖掘,无需大数据支撑就可完成,这种处理方式在2008年时的大型企业中也较为常见,其数据量较小基本上使用数仓就可完成日常的数据大屏、数据分析等工作。这是对小型数据团队和预算有限的企业的默认选项,利用云的灵活度和可扩展性,企业逐渐从传统数仓迁移到这个架构。

华为云FusionInsight可提供企业级数仓,DWS目前服务于全球1000+大型客户,广泛应用于政府、金融、运营商、大企业等领域。产品始于2011年,经历将近10年技术积累,已取得180+国内外授权专利。DWS可支撑日常的结构化数据分析,其具有如下特点:

  1. 大规模:GaussDB(DWS)基于分布式架构,在保证ACID的基础下,突破大规模分布式场景下集群通信(Multi-Streams)、逻辑集群(Multi-Groups)技术,具备2048节点扩展能力。值得一提的是,逻辑集群可将ODS、数据仓库、数据集市、自助分析等不同业务负载,有机的统一起来,有效隔离、有效共享。
  2. 高性能:GaussDB(DWS)具备多层级全并行计算引擎。支持多个物理节点并行计算,在一个物理节点内部,支持多个CPU核心并行计算,在一个CPU核心的指令序列中,支持SIMD指令,实现一个指令同时操作多条数据。将并行能力发挥到极致,为业务提供极致的性能。另外,Multi-Cores技术使得在鲲鹏上性能相比同代x86芯片提升30%以上。
  3. 高可靠:GaussDB(DWS)具备多层级容灾能力,在AZ、集群、节点及进程出现软硬件异常的情况下能够平滑处理。另外,Server端Multi-Retries技术大幅减少故障失败的业务感知;其次,在棘手的亚健康问题上,GaussDB(DWS)也有完善的检测和处理机制;最后,离线扩容、半在线扩容、在线扩容技术能够从容应对客户不同的扩容需求。

华为云DWS数据仓库技术核心是分布式架构,过去十年一直围绕分布式构筑竞争力。未来,GaussDB(DWS) 数据仓库将基于分布式架构持续演进,围绕云、大数据、5G/IoT、人工智能,构筑下一代开放的、全场景分析型数据库。

2.多模式数据处理架构

这个架构通常用于大型企业和科技公司,用来满足复杂的数据需求场景。

应用场景包括:BI及高级功能,包括AI/ML,低延时分析,大规模数据转换,多类型的数据处理(文字,图像和视频)使用各种语言(JAVA/SCALA,Python和SQL)

  • 优势:能灵活的支持各种应用,工具和UDF和部署环境。在大规模数据集上的成本优势。
  • 缺陷:不适合小型数据团队,维护这套架构需要较多的时间,费用和专家资源投入。

在现实世界中,需求侧觉醒的同时,在平行的赛博世界中,技术的进化也一直在持续。自从2006年Apache Hadoop架构发布以来,到2011年,企业逐渐采用Hadoop架构演进出来的开源或商用大数据软件,开启了离线计算时代;2012年,以Spark等为核心的流式计算开启了实时计算时代,在线分析和实时计算的场景也开始逐渐应用,但这一阶段的使用者主要是开发人员;2013年至今,随着数据的激增,大数据平台演进成了融合大数据平台,而随着AI等技术的突飞猛进,从数据分析到数据挖掘,大数据平台向着智能化进行演进。

权威调研机构IDC表示,“数字化时代下的竞争正在加速,市场参与者要么通过数字化转型成为领头企业形成规模化优势,要么将逐渐被市场淘汰”。随着5G、AI、IoT等技术的迅猛发展,到2025年,全球数据量将从2018年的33ZB快速增长到180ZB,全球数字经济总量将达25万亿,CEO也越来越重视,参与度高达67%,数字化技术让投资回报率达到6.7倍,政企数字化进程为64%。综上可知,数字化转型是政企充分释放复杂场景用数需求的必经之路。

数字底座如此关键,那么大数据作为主要承载技术,自然是其重中之重。华为云FusionInsight提供MRS数据湖服务,让政企客户在一个大、快、融、稳的云原生数据湖架构下持续演进:

1)大:支持最大2万+节点大规模集群,可集群联邦无限扩容;

2)快:可T+0实时增量更新同步,可毫秒级高效实时OLAP,缩短分析链路,实现实时数据湖;

3)融:通过HetuEngine打破多引擎、多源、跨地域的限制,消除数据孤岛,统一SQL接口融合分析,简化用数,全民BI;

4)稳:支持在线滚动升级,无需拆集群、搬应用,使客户一个架构持续演进,十年无忧!

5)云原生数据湖:通过统一元数据,让数据全局可视;通过存算分离的企业级EC,降低TCO。

华为云大数据,自2008 年开始投入研究,最早于2014年推出商用产品,秉承开源开放的心态,践行“平台+生态”战略,华为云踩对了历史的进程,围绕政企大数据全生命周期,华为云FusionInsight是一个技术领先的云原生智能数据湖,是华为云三大使能之数据使能方案的坚实数据底座。

3. 人工智能和机器学习架构

应用机器学习的公司已经在使用这套架构的一部分技术。深度使用机器学习的企业会部署整套架构,甚至自研新的工具。

  • 场景:数据驱动的内外部应用程序,场景有实时的或批处理的。
  • 优势:完全掌控整体的开发过程,将机器学习打造为企业核心且长期的能力。
  • 缺陷:不适合尚在探索机器学习,只为小范围的内部应用场景。大规模应用机器学习仍是当前最大的数据挑战

华为云ModelArts为政企客户提供一站式的AI训练和推理平台,其具有如下特点:

  • 支持AI全栈、全流程、全场景开发训练
  • 支持资源统一管理、统一池化调度
  • 支持业界主流引擎和自研引擎,实现零成本迁移
  • 提供多维度功能特性,满足各类用户

在近日发布的《IDC MarketScape: 中国大数据管理平台厂商评估,2020》(以下简称IDC大数据报告)报告中,对中国主流大数据厂商从能力、战略、市场份额三个维度进行了全面评估,华为云位居领导者象限领先位置,并在技术实力和市场份额两大维度双领先在技术上持续创新打磨之外,华为云FusionInsight也是“最懂行”的大数据解决方案:

在政府领域,国内50%的智慧城市都有华为云FusionInsight的孜孜不倦的身影,华为云大数据已支撑多个部委和各省市地区建设“大数据+政务”。在某市,华为云FusionInsight联合伙伴建成“一云二网三平台”,在统一的政务数据逻辑模型的指导下,针对民生、产业、政府的“痛点”和“难点”,从构建城市数据资源库为开端,以大数据分析支撑政府智慧决策,以建设智慧应用为抓手,打破信息孤岛,实现信息资源交换共享,在 “数聚惠民”、“数聚兴业”、“数聚善政”三大方面,发挥大数据的威力,支撑 “一号、一窗、一网” 政务服务,让简政放权、百姓办业务“最多跑一次”成为现实。

在金融领域,国内50%的TOP20金融客户(含银行、证券、保险等)均已使用华为云FusionInsight构建其大数据平台。某行使用华为云FusionInsight构建大数据基础平台,支撑了银行企业级数据湖、数据仓库、集团信息库为核心的“一湖两库”建设,承载了总行及各支行业务系统,支撑日常银行BI、AI、数据挖掘、数据分析等,实现了一份数据全局可用,免除数据搬迁,提升协同效率10倍,存储周期提升2倍,资源利用率最大可达90%,加速银行数字化转型进程。

在运营商领域,国内三大运营商均使用华为云FusionInsight构建其大数据平台。广东移动基于华为云FusionInsight,联合政企客户共同打造智慧电网、智慧交通、智慧港口、高清视频等系列标杆应用,打通数据全生命周期链路,实现对内业务支撑、对外应用赋能,全面支撑了各类政务、民生等大数据应用服务。

在交通领域,深圳地铁在6、10号线采用华为云FusionInsight构建大数据分析平台,打造领先的5G+大数据方案,并构建其数据资产中心和运行监控中心,承载地铁各业务系统,支撑设备健康、能耗管理、客流统计、线路中心级监控、应急决策和图像型火灾分析等线路级数据分析,数据分析效率从周级缩短至分钟级,实现高效运营,推动深圳步入更美好的全联接数字化轨道交通新时代…

除过在以上各行业的应用,在环境保护方面,青海绿能数据有限公司基于华为云FusionInsight构建了国内首个能源大数据创新平台,实现了规划辅助决策、用气象数据科学指导发电等创新业务,为上下游产业链企业提供25类47项数据服务,推动28座新能源场站实现了“无人值班、少人值守”,并有效支撑了青海“绿电15日”,以大数据为基石,建设绿色新青海,守护高原和谐生态。

同时,华为坚持“自己的降落伞自己先跳”,华为集团IT通过FusionInsight构建OneData大数据集群,实现大数据平台在大规模场景下的开拓,OneData集群其规模已至1万+节点;同时,实现了统一的数据管理服务,在菩提海UniDB产品中,通过逻辑统一方式,把50+物理分散的计算集群(Hadoop+MPP),基于五统一(数据安全,元数据目录,数据集成,数据访问,任务调度),整合成湖仓一体的架构,支撑上千个企业租户的PB级数据分析处理需求。一个基于FusionInsight MRS+DWS 的“+治理,+AI,+运营,+云”的融合数据底座(菩提海)已经在华为集团IT广泛使用,未来可期。

以上只是“冰山的一角”,华为云FusionInsight一方面不断深入理解客户不断发展的业务诉求,另一方面,持续技术创新并引领行业发展,商业诉求+技术创新双轮驱动行业可持续、高质量发展,“用数”助力客户商业成功!上面的论述已经充分证明,华为云是“懂行”的大数据领导者,真正让客户用好数、管好数、放心用。

据了解,截至2020 年10月底,华为云FusionInsight 智能数据湖已服务60+个国家和地区,3,000+客户,覆盖政府、金融、运营商、电力、传媒、医疗、教育、交通、油气、物流、零售、制造、互联网等行业。

点击关注,第一时间了解华为云新鲜技术~

“3+3”看华为云FusionInsight如何引领“数据新基建”持续发展的更多相关文章

  1. 华为云FusionInsight MRS:助力企业构建“一企一湖,一城一湖”

    摘要:华为云FusionInsight MRS新一代的数据湖,让大数据越用越快.越用越易.越用越稳.越用越省!让数据价值近在眼前! 10月30日,以"携手共赢·数创未来"为主题的第 ...

  2. 华为云FusionInsight湖仓一体解决方案的前世今生

    摘要:华为云发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念,那我们就来看看湖仓一体的来世今生. 伴随5G.大数据.AI.IoT的飞速发展,数据呈现大规模.多样性的极速增长 ...

  3. 解密华为云FusionInsight MRS新特性:一架构三湖

    摘要:华为云安全网关产品总监郭冕在"华为云TechWave云原生2.0专题日"上发表<华为云FusionInsight MRS,一个架构实现三种数据湖>的主题演讲,分享 ...

  4. AI本质就是“暴力计算”?看华为云如何应对算力挑战

    随着AI人工智能技术的飞速发展,相关的AI应用场景已经拓宽至各行各业.你可能想象不到的是,现在大家手上的智能手机的运算能力,甚至比美国航空航天局1969年登月计划中最先进计算机还高出几百上千万倍乃至更 ...

  5. 当MySQL执行XA事务时遭遇崩溃,且看华为云如何保障数据一致性

    摘要:当前MySQL所有版本不支持分布式事务的崩溃恢复安全,这严重影响了分布式事务的高可用保障. 华为云数据库内核高级技术专家,拥有十多年MySQL内核研发经验,目前在华为云数据库团队研发华为云数据库 ...

  6. 【技术干货】华为云FusionInsight MRS的自研超级调度器Superior Scheduler

    Superior Scheduler是一个专门为Hadoop YARN分布式资源管理系统设计的调度引擎,是针对企业客户融合资源池,多租户的业务诉求而设计的高性能企业级调度器. Superior Sch ...

  7. 华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践

    背景 湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向. 华为云早在2020年就开始着手相关技术的预研,并落地在华为云 Fusio ...

  8. 华为云ROMA,联接企业应用的现在与未来

    2019.9.19日,在华为全联接大会的华为云Summit中,华为云CTO宇昕总提出:"企业的应用与数据集成,始终是数字化转型和智能化升级的关键,华为云企业应用与数据集成平台ROMA,打破时 ...

  9. 华为云WeLink 颠覆你对智能办公的想象

    导读 华为云发现,与企业数字化关系最紧密的就是办公数字化,所以将WeLink放到华为云上可以作为一个抓手让企业更直观地感受到云端数字化,而且华为云的合作伙伴,也可以与WeLink建立联接,从而进整个企 ...

随机推荐

  1. docker 升级后或者重装后,启动容器提示:Error response from daemon: Unknown runtime specified docker-runc

    之前安装的版本是docker 1.3,并运行了容器jenkins 现在把docker升级版本为docker-ce 19.03 再使用docker ps发现之前的jenkins容器已经退出了 启动容器: ...

  2. python 编写名字管理系统

    1 #打印功能提示 2 print('='*50) 3 print(' 名字管理系统 v1.1') 4 print('1.添加新的名字') 5 print('2.删除一个名字') 6 print('3 ...

  3. Java9第四篇-Reactive Stream API响应式编程

    我计划在后续的一段时间内,写一系列关于java 9的文章,虽然java 9 不像Java 8或者Java 11那样的核心java版本,但是还是有很多的特性值得关注.期待您能关注我,我将把java 9 ...

  4. logback.xml demo

    如何关闭 org.apache.zookeeper.clientcnxn 的(控制台大量输出)debug 日志 1.在项目resources路径下新建 logback.xml 2.然后把下面的代码co ...

  5. 再过两年C语言就50岁了,这么老的编程语言怎么还没有过时?

    再过两年,C语言将迎来它的 50 岁生日,同样进行周年庆的还有 PL/M和Prolog.不过,C语言至今仍然非常受欢迎,它在几乎所有编程语言中的受欢迎程度,始终排在前十名.   大多数操作系统的内核( ...

  6. 【C语言】这种求结构体成员大小的方法,你可能需要了解一下~

    在C语言编程中,有时候需要知道某结构体中某成员的大小,比如使用堆内存来存储结构体中的某成员时,需要知道该成员的大小,才好确定所需申请的空间大小.求某结构体中某成员的大小,你会怎么做? 例子: type ...

  7. spring boot:shardingsphere+druid多数据源整合seata分布式事务(spring boot 2.3.3)

    一,为什么要给shardingsphere配置多数据源? 1,shardingjdbc默认接管了所有的数据源, 如果我们有多个非分表的库时,则最多只能设置一个为默认数据库, 其他的非分表数据库不能访问 ...

  8. centos8平台使用parted管理分区

    一,parted的用途 parted是GNU发布的强大的分区工具, parted命令可以划分单个分区大于2T的GPT格式的分区,也可以划分普通的MBR分区. 因为fdisk命令对于大于2T的分区无法划 ...

  9. History和Screen的对象属性

    History 对象是 window 对象的一部分,可通过 window.history 属性对其进行访问. 属性 说明 length 返回历史列表中的网址数 History 对象方法 方法 说明 b ...

  10. Codeforces Round #677 (Div. 3) D/1433D Districts Connection

    https://codeforces.com/contest/1433/problem/D 找两个不同权值的节点A.B连起来,所有与A不同权值的连到A上,相同的连到B上. #include<io ...