2021年10月20日,Tapdata 创始人唐建法(TJ)受邀出席 DTCC 2021(中国数据库技术大会),并在企业数据中台设计与实践专场上,发表主旨演讲“Real Time DaaS :打造面向 TP+AP 业务的数据平台架构”,从 AP 业务场景 vs. TP 业务场景、常见数据平台优劣势、如何打造面向 TP+AP 业务的数据平台等角度,全面分享了 Tapdata 在全链路实时数据融合平台的独特技术优势和最佳实践案例,整场分享干货满满、广受好评。
 

 
 
从20年前的传统数仓,到10年前大数据平台,5年前开始火热的数据中台以及最近出现的湖仓一体新数据平台,企业对这些 AP 业务场景的数据产品及架构有着太多的选择,但是实际上,企业在 TP 类型业务上的投入和 AP 相比是9:1,为什么没有面向 TP 业务的数据平台呢?
 

 
 
唐建法指出,之所以 TP 业务数据平台还不多见,是因为数据孤岛问题不严重的时候,TP 只需要一个RDBMS 就可以解决,同时由于 Technical Difficulty,缺乏合适的工具和技术架构,TP 业务数据平台难以推广。
 
TP vs. AP 不难发现,他们有着较大的差异和特点。从业务场景来看 OLTP 如常见的:在小程序上一套新的CRM、租房子(房屋租赁平台)等,与之对应的 OLAP 场景就是:用户行为洞察(用户对哪些产品关注比较多,哪些产品比较赚钱)、租房客户推荐( 根据客户行为打上标签,并推荐相应的房源) ,其中 OLTP 切中的是企业核心运营价值链
 
从技术维度来看,OLTP 要求毫秒级的数据响应速度,数百 ~ 数十万的并发查询量,而 OLAP 通常可接受数秒到分钟级的数据响应速度和数个到数十个的并发查询。在存储方案上,OLTP 常用Oracle,MySQL,SQLServer,PostgreSQL,DB2,MongoDB,Elastic,Redis 等,而 OLAP 常用Teradata,Greenplum,Hadoop等。
 
既然 TP 业务场景价值更高,且需求非常明确,那么如何打造一个面向 TP 业务的数据平台架构?类似与IaaS,PaaS或者SaaS,Tapdata 给出的方案是提供一个 DaaS (Data as a Service): 将企业各个业务系统的数据汇总到一个中央化平台,经过低代码方式治理以后,形成可复用的企业数据资产,通过无代码数据接口方式提供给业务使用方。
 
唐建法结合 Tapdata 在全链路实时数据平台方面的实践,重点解析了 Tapdata Real Time DaaS 架构的特点和创新点:一个“实时同步+实时处理+实时服务”三位一体的全链路实时数据处理及服务平台。
 

 
 
DaaS 架构之一:实时数据采集同步。Tapdata 的第一步就是将批量、滞后的 ETL 换成了 CDC 方式,基于数据库 Write Ahead Log 日志同步监听的方式来进行在不同系统之间的数据复制,它的优势在于:对源库性能影响小;资源消耗少;从事务在源端提交开始到更新写入同步的目标库,延迟可以小于1秒,能够满足对实时性要求较高的业务场景;

 
 
DaaS 架构之二:基于Pipeline的流式数据处理建模。当我们把需要的数据从源库里面无侵入、准实时地抽取了出来之后,可能还需要:对来自多个库的数据进行合并;对表结构进行重构,组成新的模型;构建业务宽表等。基于 Tapdata 实时流数据处理技术,可以实现事件触发、毫秒级数据更新、不间断持续运行,从而满足 TP 业务和实时分析等场景需求。

 
 
DaaS 架构之三:基于分布式数据库 MongoDB 或 TiDB 的中间库存储。相比 AP 数据平台常用的 Hadoop 大数据存储方案, 比较成熟的分布式数据库(MongoDB 或 TiDB)更适合作为 DaaS 的存储方案。主要原因是 DaaS 的很大一部分能力需要直接对接业务系统,高并发,毫秒级响应是必备的能力。这种能力只有基于索引机制的分布式数据库才可以做到。MongoDB 的模型变动灵活,非常适合多源快速融合,无需复杂关系建模。而 TiDB 的 HTAP 则能不错的支撑一些常见的分析业务。
 
此外,Tapdata Real Time DaaS 还具备易集成、易拓展、低代码、可视化等优势,相比自建实时数据平台不仅落地实施快、排错难度低,还可以大幅降低学习成本。

 
 
最后,TJ 对 Tapdata Real Time DaaS 的主要技术场景和业务场景做了总结梳理:
如果你是一个应用架构师或者数据架构师,DaaS架构可以在以下几方面作为选型参考:
  1. 技术场景一:快速数据交付。TiDB, Neo4J,Nebula, Elastic Search, GreatDB, Dameng, 数不胜数的新型数据库和国产数据库品牌都在各个企业生根发芽,而每一个新数据库场景的落地,都有可能需要获取已有业务系统的数据。DaaS 价值:直接从 DaaS 导入并保持持续同步,满足实时数据更新的需求,从数周的时间缩短到数小时内完成数据交付;
  2. 技术场景二:实时数据中台。实时打通企业数据孤岛,对数据进行实时采集,治理及建模,构建企业的主数据系统,为企业的交互式业务,包括客户管理、生产运营管理等提供一个完整全面的企业数据底座。DaaS 价值:孤岛数据汇聚,中央化数据存储,去重、合并、重新建模,主数据管理,构建数据目录,主要支撑前端交互式业务。
  3. 技术场景三:实时数据大屏。为帆软、Tableau或自研的数据可视化平台提供数据固化视图,以亚秒级的性能为这些可视化平台供数。和传统大屏依赖 SQL 和逻辑视图的方案,实时大屏交互体验无需等待,非常流畅。DaaS 价值:数据采集同步,宽表构建,统计聚合计算。
  4. 技术场景四:实时数仓。将企业主数据及运营数据统一汇聚到平台,按照数仓分层理论分成基础数据,主数据和汇总数据层, 为企业BI、报表等提供快速的数据支撑。DaaS 价值:数数据同步,数据分层,数据目录,分析聚合能力。
  5. 技术场景五:企业数据服务平台。企业内部部门众多,各业务均需要获取企业相关运营数据,通过构建一个统一的数据服务平台,部门可以快速的获取业务所需要的数据,并且通过API方式可以实现自助访问。DaaS 价值:数据同步,数据目录,API发布,基于内存的数据库,高并发查询。

 
如果你更关注 DaaS 可以创造什么样的业务价值,以下是几个比较常见的场景 DaaS 架构会为企业实现这些业务提供显著的降本增效的能力:
  1. 业务场景:全渠道商品及库存中心大型企业往往有不同业务线,由不同IT部门支撑,并且有线上线下等不同渠道。全渠道营销需要打通各个业务系统,将商品,客户,订单,库存,会员等信息进行统一,给最终客户一个全渠道商品检索,订购和售后的最佳体验。DaaS 价值:提客户体验:一站式购物;IT效率:逐渐下架传统渠道。
  2. 业务场景:SCRM。小程序、钉钉等建立新一代客户关怀系统或银行推出一套新的个贷/信用卡业务等。DaaS 价值:提供完整实时的客户信息给前端业务,加速业务系统的上线。
  3. 业务场景:360度客户视图。客户信息在多套 CRM 系统维护,信息不一致,更新不及时,无法有效进行 cross sale 和 upsale,客户服务体验差,没有统一的入口管理客户信息。DaaS 价值:提高客户体验: 提供准确统一的客户信息;提高营收: 准确的客户标签和相应的推荐带来更多收入。
  4. 业务场景四:实时风控。银行个贷,互金小额贷,保险等在线金融业务需要对客户进行实时风险管控。做法是将来自于金融系统和外部系统(信用、司法、公安等)的个人数据进行统一汇聚,在申请流程中实时查询客户的风险信息并提供个算法引擎做决策。DaaS 价值:完整实时的信息为风控提供高质量的判断,降低坏账率,提高营收利润。
 
在分享结束后提问环节,TJ 回答了的一个常见的用户问题:Tapdata 可以用来做数据打通,形成一个可复用的实时数据平台,但是我们往往首要的业务诉求往往是做一些统计分析,大屏展示和运营指标。这样的话是否合适使用 Tapdata 呢?TJ 解释到,这些偏向于运营指标和聚合类计算的属于相对简单的分析场景,是完全可以在 DaaS 平台里完成。作为存储的 MongoDB 自带丰富的聚合框架计算能力,Tapdata 的流式计算也提供聚合框架,基本上可以以流式预聚合 + 数据库聚合计算两种技术能力支撑上述的数据场景。 相较于大数据平台,Tapdata的方案能够提供更加准确,更加即时的数据指标和实时分析结果。
 
获取完整演讲 PPT 内容,请点击:http://tapdata-user.mikecrm.com/Z1V3zoT,了解更多 Tapdata Real Time DaaS 相关干货内容请关注 Tapdata 技术博客:https://tapdata.net/blog.html,免费试用请点击:http://tapdata-user.mikecrm.com/IpE21eG
 

DTCC 干货分享:Real Time DaaS - 面向TP+AP业务的数据平台架构的更多相关文章

  1. 相约 DTCC 2021 | Tapdata 受邀分享:如何打造面向 TP 业务的数据平台架构

      2021第十二届中国数据库技术大会(DTCC)将于2021年10月18-20日,在北京国际会议中心举行,Tapdata 创始人唐建法受邀分享:如何打造面向 TP 业务的数据平台架构.   演讲时间 ...

  2. 数据孤岛下的新破局 Real Time DaaS:面向 AP+TP 业务的数据平台架构

    从传统数仓,到大数据平台,再到数据中台和湖仓一体新数据平台,在日益加重的数据孤岛困扰下,面向AP场景的解决方案可谓浩如烟海.但实际上,企业在TP类型业务上的投入和AP的比率却高达9:1,为什么没有为T ...

  3. 干货分享:SQLSERVER使用裸设备

    干货分享:SQLSERVER使用裸设备 这篇文章也适合ORACLE DBA和MYSQL DBA 阅读 裸设备适用于Linux和Windows 在ORACLE和MYSQL里也是支持裸设备的!! 介绍 大 ...

  4. iOS - GitHub干货分享(APP引导页的高度集成 - DHGuidePageHUD - ②)

    距上一篇博客"APP引导页的高度集成 - DHGuidePageHUD - ①"的发布有一段时间了, 后来又在SDK中补充了一些新的内容进去但是一直没来得及跟大家分享, 今天来跟大 ...

  5. iOS - GitHub干货分享(APP引导页的高度集成 - DHGuidePageHUD - ①)

    好长时间没更新博客, 是时候来一波干货分享了;APP引导页话不多说每一个APP都会用到,分量不重但是不可缺少,不论是APP的首次安装还是版本的更新,首先展现给用户眼前的也就只有它了吧,当然这里讲的不是 ...

  6. 【干货分享】Google 的设计准则,素材和资源

    在谷歌,他们说, “专注于用户,所有其它的就会水到渠成 ”.他们遵循设计原则,寻求建立让用户惊喜的用户体验.谷歌一直挑战自己,为他们的用户创造一种视觉语言,综合优秀设计的经典原则和创新.谷歌设计规范是 ...

  7. 【干货分享】Node.js 中文资料导航

    这篇文章与大家分享一批高质量的的 Node.js 中文资料.Node.js 是一个基于 Chrome JavaScript 运行时建立的一个平台, 用来方便地搭建快速的, 易于扩展的网络应用 Node ...

  8. 干货分享:MySQL之化险为夷的【钻石】抢购风暴【转载】

    转自: 干货分享:MySQL之化险为夷的[钻石]抢购风暴 - Vanos_韩尛哲 - 博客园http://www.cnblogs.com/Vanos-lcp/p/5642097.html 抢购钻石不稀 ...

  9. 32位汇编第四讲,干货分享,汇编注入的实现,以及快速定位调用API的数量(OD查看)

    32位汇编第四讲,干货分享,汇编注入的实现,以及快速定位调用API的数量(OD查看) 昨天,大家可能都看了代码了,不知道昨天有没有在汇编代码的基础上,实现注入计算器. 如果没有,今天则会讲解,不过建议 ...

随机推荐

  1. java 中为什么重写 equals 后需要重写 hashCode

    本文为博主原创,未经允许不得转载: 1. equals 和 hashCode 方法之间的关系 这两个方法都是 Object 的方法,意味着 若一个对象在没有重写 这两个方法时,都会默认采用 Objec ...

  2. 继承 & super & 方法覆盖

    简单继承 细节1: 细节2: 子类创建对象,先 父类构造器,后 子类的构造器,因为(默认的super) 细节3: 假设父类只有一个有参构造器,  此时需要子类用上super给定父类参数,才能通过编译 ...

  3. 深度长文:深入理解Ceph存储架构

    点击上方"开源Linux",选择"设为星标" 回复"学习"获取独家整理的学习资料! 本文是一篇Ceph存储架构技术文章,内容深入到每个存储特 ...

  4. Java安全之SnakeYaml反序列化分析

    Java安全之SnakeYaml反序列化分析 目录 Java安全之SnakeYaml反序列化分析 写在前面 SnakeYaml简介 SnakeYaml序列化与反序列化 常用方法 序列化 反序列化 Sn ...

  5. Flutter网络请求和数据解析

    一:前言 - 什么是反射机制,Flutter为什么禁用反射机制? 在Flutter中它的网络请求和数据解析稍微的比较麻烦一点,因为Flutter不支持反射机制.相信大家都看到这么一条,就是Flutte ...

  6. drools规则属性(rule attributes)的使用

    一.介绍 规则属性是您可以添加到业务规则以修改规则行为的附加规范. 在 DRL 文件中,您通常在规则条件和操作的上方定义规则属性,多个属性位于单独的行中,格式如下: rule "rule_n ...

  7. 442. Find All Duplicates in an Array - LeetCode

    Question 442. Find All Duplicates in an Array Solution 题目大意:在数据中找重复两次的数 思路:数组排序,前一个与后一个相同的即为要找的数 Jav ...

  8. 好客租房39-react组件基础总结

    1组件的两种创建方式:函数组件和类组件 2无状态函数组件 负责静态结构展示 3有状态组件 负责更新ui 让页面动起来 4绑定事件注意this指向问题 5使用受控组件创建表单 6完全利用js语言的能够力 ...

  9. Python技法:浮点数取整、格式化和NaN处理

    1. 取整的三种方法 1.1 强转int类型 这种方法会直接对浮点数的小数部分进行截断(无论是正还是负). print(int(2.7)) # 2 print(int(-2.7)) # -2 1.2 ...

  10. Python 中的内存管理

    Python 中一切皆对象,这些对象的内存都是在运行时动态地在堆中进行分配的,就连 Python 虚拟机使用的栈也是在堆上模拟的.既然一切皆对象,那么在 Python 程序运行过程中对象的创建和释放就 ...