墨天轮国产数据库沙龙 | 四维纵横姚延栋 :MatrixDB,All-in-One高性能时序数据库
分享嘉宾:姚延栋
北京四维纵横数据有限公司创始人、原Greenplum 北京研发中心总经理、Greenplum中国开源社区创始人、PostgreSQL中文社区常委、壹零贰肆数字基金会(非营利组织)联合发起人
整理:墨天轮社区
导读
物联网、车联网、工业互联网的快速发展,标志着我们正在加速进入万物互联的时代,时序数据库成为数据架构技术栈的标配。
MatrixDB作为全球超融合时序数据库开创者,专为物联网、车联网、工业互联网和智慧城市打造的一站式数据平台。今天我分享的内容分为四个主题:时序数据与时序数据库,MatrixDB特点、MatrixDB案例。
时序数据
1、什么是时序数据?
首先,时序更多是一种视角,用来洞悉过去、分析未来、决断现在。
在每一个时刻都会产生各种各样的数据,比如指标数据、位置数据、点云数据、图像数据等,类似于一个快照。不同时刻持续的数据积累下来,就形成了一个时间序列,这就是时间序列数据。
在某一个时刻我们可以知道当下的状态,这些时刻的叠加就可以洞悉过去分析、决断未来,这就是时序数据库的巨大价值。
时序数据处处皆有,且快速增长。在未来时序数据的体量将会越来越大,且处处皆有。时序数据一定要有关系数据的整合,才能发挥真正的价值。
2、基本概念和建模
时序数据三种建模方式分为:窄表模式、宽表模式、树形模式。
- 窄表模式:类似Sorted KV,⼀条表示⼀个数据点,核⼼是指标,弱设备概念
- 宽表模式:⼀条表示多个数据点,核⼼是设备或者实体
- 树形模式,核⼼是指标,与窄表区别是以层级⽅式组织元数据
三种模式,窄表写⼊灵活,宽表查询灵活,树居中。
图1 三种建模模式的对比
时序数据库
1、时序数据库的发展演变
时序数据库的发展最早可追溯到上世纪80年代。而在早期时序数据库都是针对特定的场景。
MatrixDB在2020年创立,在万物互联的趋势下,为物联网、车联网、工业互联网设计的一款特特色的数据库。
图2 时序数据库演进历史
2、时序数据库的发展趋势
- 第1大趋势:从监控走向分析
过去时序场景主要用于服务器监控,服务器不过几万台,存储7天到30天的数据,数据量小且主要目的是监控;但随着物联网、工业物联网、车联网的崛起下,数据量大且主要目的是分析,通过分析挖掘海量时序数据的价值。
- 第2大趋势:数据模型从窄表走向宽表
相比于“窄表”,“宽表”能够业务相关的测点、维度和属性信息放在一张或者几张数据库表中,存储效率高,速度快,适合大数据量及复杂业务场景。
在物联网、工业物联网、车联网的场景的崛起,时序数据库越来越重视分析,宽表模型越来越多,近几年出现的新时序数据库也都是以宽表模型为主。
- 第3大趋势:数据规模走向PB级
随着物联网的发展,数据规模将会越来越大,从之前的GB/TB级走向PB级。
- 第4大趋势:技术栈走向超融合时序数据库
从各种开源软件拼搭起来走向 ONE FOR ALL 的架构方式。借鉴奧卡姆剃刀原理:“如无必要,勿增实体”。一个数据库可以完成的事情,就不需要太多的数据库来处理。
因此,MatrixDB的目标是把“极简”、“极速”留给用户,把复杂留给数据库开发人员。
图3 时序数据库的未来发展趋势
MatrixDB特点
1、MatrixDB产品简介
MatrixDB是全球首款超融合时空数据库,基于自主研发的多项专利技术,实现海量时空数据的快速采集、高效存储、实时分析以及深度学习(ML+AL),比传统的时序数据库InfluxDB、OpenTSDB性能快50倍,空间节省60%以上,比传统的MPP数据库快到3-100倍。
Matrix DB广泛应用于能源、航空航天、汽车和车联网、智能制造和工业互联网、金融、保险、证券、5G通信、雷达和气象、智慧农业、生物医疗研发、智慧城市、智能家居等各行各业,覆盖智能监控、实时控制、设备溯源、用户画像、行为分析和预测分析等多种应用场景,为物联网、车联网、工业互联网和智慧生活提供坚实、简洁的数据基座。
图4 MatrixDB全景图
2、MatrixDB产品优势
All in One:一个数据库直接处理各种数据类型,不管是时序数据、GIS 数据、传统的关系数据、KV 数据或 JSON 数据等。
稳定可靠:MatrixDB 基于开源的 Greenplum 及 PostgreSQL 来开发,这两个产品都经过几十年的积累沉淀。研发内部也有很多的测试用例,分两大类:几十万的静态测试及混沌测试 ,可以说 MatrixDB 是站在巨人的肩膀上。
大规模:海量的数据规模已经达到 PB 级的数据量,数据库要能支持100 PB 级,大量节点的可扩展性,线性扩展能力强可以随时加节点,能力是呈现线性增长的,在线性扩展点上,最小的集群能支撑多大的数据量。
高性能:MatrixDB 是支撑于 Greenplum,使用核心的 MPP 为主体架构,在此基础上加了专门优化时序场景的执行器,以及为时序场景优化的存储器。
企业级特性齐全:对于数据库而言,POC 关注性能,一旦上了生产,更关注稳定性、可运维性,MatrixDB 有监控报警、在线扩容、备份恢复及安全控制等企业级特性非常的齐全。
生态完备:与 PostgreSQL 12 / Greenplum 兼容,无缝对接Hadoop生态,在数据库内部进行 Machine Learning 训练,支持 Python 及 R 等 UDF。
图5 MatrixDB产品优势
MatrixDB案例
MatrixDB 的应用案例主要分为三大类:数字孪生智能设备、工厂大脑智能制造、经典数仓实时分析。
图6 MatrixDB案例场景分类
1、案例一:某造车新势力
新能源造⻋新势⼒快速发展,销量年增⻓率超过200%,过去基于 OpenTSDB+Hive 的技术架构⽆法⽀撑其快速增⻓的数据量和业务,创新迭代速度受限,成为发展瓶颈。
使用MatrixDB 建设后效果明显,硬件成本节省80%,写入效率提升10倍、特定查询效率提升100倍、开发运维效率提升1倍。
图7 MatrixDB 在造车新势力的应用案例
2、案例二:某能源科技巨头
动⼒电池制造巨头,基于电池充放电数据分析,⽀持电池健康状况检查、电池⻛险预警、电池⼯艺优化等关键业务。由于业务快速增⻓,基于 Spark + Hive 的⽼架构成为瓶颈。
通过MatrixDB 建设后,实现了存储500TB电池充放电数据、计算开销节省85%、存储开销节省30%的效果。
图8 MatrixDB 在新能源科技的应用案例
3、案例三:某装备制造业巨头
智能装备运维和优化某装备制造业巨头对分布在全球各地的产品进⾏智能化改造,使其对产品的使⽤过程了如指掌,为客户提供运维管理、预测维修、动⼒优化等。
用All-in-One替代MySQL/TDEngine/Greenplum/Spark,实现集群硬件节省⼀半,性能提升6倍的效果。
图9 MatrixDB 在装备制造业的应用案例
4、案例四:某物流物联⽹服务商
建设效果:
- 数⽉数据量:300TB
- 实时定位:100ms返回,1000并发
- 1天轨迹500ms内返回,3天轨迹1秒返回
- 数据延迟不超过1分钟
图10 MatrixDB 在物流互联网服务商的应用案例
5、案例五:某省工厂大脑
2021年11⽉完成多条总装⽣产线、裁切机和数控机床的接⼊以及安吉、越南两套ERP系统和⼀套MES系统的全部数据清洗和标准化接⼊⼯作,实现了第⼀阶段透明⼯⼚建设⽬标,22年全省推⼴。
图11 MatrixDB 在某省工厂大脑的应用案例
6、案例六:某制药企业
传统的⼯业⼤数据“复杂”、“低效”,投⼊巨⼤产出甚微,使得很多⼯业企业谈“⼤数据”⽽⾊变。基于MatrixDB的⼯业⼤数据平台解决⼤数据复杂度问题,把“极简”、“极速”留个客户。
图12 MatrixDB 在某制药企业中的应用案例
7、案例七:某制造企业
某国际知名制造业企业通过收集⼯⼚的各种数据,分析影响成品率的主要因素,改进⽣产流程,降本增效,⼤幅提升利润率。
图13 MatrixDB 在某制造企业的应用案例
以上就是我今天的分享内容,谢谢大家!
更多精彩内容,欢迎大家观看视频回放与会议资料
视频回放:https://www.modb.pro/video/6115
会议资料:https://www.modb.pro/doc/57017
- 查看原文:https://www.modb.pro/db/337182
- 查看【国产数据库沙龙】往期生态工具、图数据库专场文章、视频回放资源:https://www.modb.pro/topic/157860
墨天轮,围绕数据人的学习成长提供一站式的全面服务,打造集新闻资讯、在线问答、活动直播、在线课程、文档阅览、资源下载、知识分享及在线运维为一体的统一平台,持续促进数据领域的知识传播和技术创新。
关注官方公众号: 墨天轮、 墨天轮平台、墨天轮成长营、数据库国产化 、数据库资讯
墨天轮国产数据库沙龙 | 四维纵横姚延栋 :MatrixDB,All-in-One高性能时序数据库的更多相关文章
- 深度解读MRS IoTDB时序数据库的整体架构设计与实现
[本期推荐]华为云社区6月刊来了,新鲜出炉的Top10技术干货.重磅技术专题分享:还有毕业季闯关大挑战,华为云专家带你做好职业规划. 摘要:本文将会系统地为大家介绍MRS IoTDB的来龙去脉和功能特 ...
- MRS IoTDB时序数据库的总体架构设计与实现
MRS IoTDB时序数据库的总体架构设计与实现 MRS IoTDB是华为FusionInsight MRS大数据套件最新推出的时序数据库产品,其领先的设计理念在时序数据库领域展现出越来越强大的竞争力 ...
- ASP.NET Core2读写InfluxDB时序数据库
在我们很多应用中会遇到有一种基于一系列时间的数据需要处理,通过时间的顺序可以将这些数据点连成线,再通过数据统计后可以做成多纬度的报表,也可通过机器学习来实现数据的预测告警.而时序数据库就是用于存放管理 ...
- 时序数据库技术体系 – InfluxDB TSM存储引擎之TSMFile
本文转自 http://hbasefly.com/2018/01/13/timeseries-database-4/ 为了更加系统的对时序数据库技术进行全方位解读,笔者打算再写一个系列专题(嘿嘿,好像 ...
- 时序数据库深入浅出之存储篇——本质LSMtree,同时 metric(比如温度)+tags 分片
什么是时序数据库 先来介绍什么是时序数据.时序数据是基于时间的一系列的数据.在有时间的坐标中将这些数据点连成线,往过去看可以做成多纬度报表,揭示其趋势性.规律性.异常性:往未来看可以做大数据分析,机器 ...
- 0160 十分钟看懂时序数据库(I)-存储
摘要:2017年时序数据库忽然火了起来.开年2月Facebook开源了beringei时序数据库:到了4月基于PostgreSQL打造的时序数据库TimeScaleDB也开源了,而早在2016年7月, ...
- .NET Core读写InfluxDB时序数据库的方法教程
前言 在我们很多应用中会遇到有一种基于一系列时间的数据需要处理,通过时间的顺序可以将这些数据点连成线,再通过数据统计后可以做成多纬度的报表,也可通过机器学习来实现数据的预测告警.而时序数据库就是用于存 ...
- 巨杉TechDay回顾 | WARNING!您参加的数据库沙龙热度已爆表……
自从2008年“大数据”这一概念被首次提出以来,在过去这10年中,几乎各行各业都或多或少受到了这一概念的影响.与此同时,在AI.云计算.物联网.区块链等新兴技术快速发展的今天,数据库己经成为了决定所有 ...
- 国产时序数据库IotDB安装、与SpringBoot集成
一.简介: 本文将完成一个真实业务中的设备上报数据的一个例子,完整的展示后台服务接收到设备上报的数据后,将数据添加到时序数据库,并且将数据查询出来的一个例子.本文所有代码已经上传GitHub:http ...
- 在数据库访问项目中使用微软企业库Enterprise Library,实现多种数据库的支持
在我们开发很多项目中,数据访问都是必不可少的,有的需要访问Oracle.SQLServer.Mysql这些常规的数据库,也有可能访问SQLite.Access,或者一些我们可能不常用的PostgreS ...
随机推荐
- 【H5】08 图片
摘自: https://developer.mozilla.org/zh-CN/docs/Learn/HTML/Multimedia_and_embedding 在这份教程中,到目前为止我们已经看到了 ...
- 【Hibernate】04 主键策略 & CRUD
实体类编写规范: - 每个属性不应该被公开的访问,设置私有 - 提供可以访问和设置的方法,GETTER & SETTER - 必须编写一个主键属性[ID 唯一值] - 建议使用基本类型的包装类 ...
- 【Layui】11 滑块 Slider
文档地址: https://www.layui.com/demo/slider.html 基本滑块: <fieldset class="layui-elem-field layui-f ...
- 世界机器人大会 —— 人形机器人(humanoid)、双足机器人、四足机器人 —— 我国最大的机器人展览会
相关资料: https://www.bilibili.com/video/BV1iG411g7B4/ https://www.youtube.com/watch?v=8cJV08MTwA0 官网主页: ...
- 同策略强化学习算法可以使用经验缓存池(experience buffer)吗 ??? 设计一个基于缓存池的改进reinforce算法,给出初步的尝试 ---------- (reinforce + experience buffer)
本文使用代码地址: https://gitee.com/devilmaycry812839668/reinforce_with_-experience-buffer ================= ...
- 不务正业的再次胡想——chatgpt在“智能辅助编程”外的另一个可能场景"智能论文写作辅助”
在chatgpt4出来后震惊了很多人,但是很多人也觉得好像用处不大:可以说chatgpt4确实更加智能了,在语言对话上更加的智能,很多情况下已经很难分辨出这货是个机器人,但是现在这东西好像确实也没有太 ...
- 高效调度新篇章:详解DolphinScheduler 3.2.0生产级集群搭建
转载自tuoluzhe8521 导读:通过简化复杂的任务依赖关系, DolphinScheduler为数据工程师提供了强大的工作流程管理和调度能力.在3.2.0版本中,DolphinScheduler ...
- 白鲸开源CEO郭炜荣获「2024中国数智化转型升级先锋人物」称号
2024年7月24日,由数据猿主办,IDC协办,新华社中国经济信息社.上海大数据联盟.上海市数商协会.上海超级计算中心作为支持单位,举办"数智新质·力拓未来 2024企业数智化转型升级发展论 ...
- LeetCode216.组合总和lll
4.组合总和lll(LeetCode216) 题目叙述: 找出所有相加之和为 n 的 k 个数的组合,且满足下列条件: 只使用数字1到9 每个数字 最多使用一次 返回 所有可能的有效组合的列表 .该列 ...
- 【Mac + Appium + Java1.8(二)】之Android模拟器自动化测试脚本开发以及简易例子
直接上代码: import io.appium.java_client.AppiumDriver; import org.junit.After; import org.junit.Before; i ...