达摩院重要科技突破!空天数据库引擎Ganos解读
简介: Ganos空天数据库引擎是李飞飞带领的达摩院数据库与存储实验室研发的新一代位置智能引擎,采用了平台即服务、多模融合、计算下推和云原生全新处理架构,为政府、企事业单位、泛互联网客户提供移动对象、空间/时空、遥感多模态数据混合存储、查询与分析服务,解决空天大数据使用流程复杂、使用门槛高、应用效率低等问题,主要应用于城市管理、交通物流、自然资源、航空航天、物联信息等领域。
作者 | 谢炯
来源 | 阿里技术公众号
Ganos空天数据库引擎是李飞飞带领的达摩院数据库与存储实验室研发的新一代位置智能引擎,采用了平台即服务、多模融合、计算下推和云原生全新处理架构,为政府、企事业单位、泛互联网客户提供移动对象、空间/时空、遥感多模态数据混合存储、查询与分析服务,解决空天大数据使用流程复杂、使用门槛高、应用效率低等问题,主要应用于城市管理、交通物流、自然资源、航空航天、物联信息等领域。
一 研发背景
1 什么是空天大数据
随着移动互联网、位置感知技术、对地观测技术的快速发展,以移动对象、空间/时空、遥感为代表的空天传感数据呈爆发式增长,成为新基建和数字化框架的重要基础。
狭义上,空天数据(aerospace data)主要来自天基和空基,例如基于天基平台的GNSS(全球导航卫星系统)数据等,基于空基平台的航拍影像、视频数据等。广义上,我们将空天数据定义为涵盖Spatial(空,即地理空间)和Space(天,即宇宙空间)的地海空天各类与位置相关数据,也即本文所述空天大数据。天问一号携祝融号在火星的登陆将为我们传来大量火星遥感影像和空间信息,使大家最直观地感受到来自地球之外的空天大数据。
以空天大数据助力疫情防控为例,我们可以利用人、车等移动对象的轨迹数据进行传播源追踪和疑似人群排查;利用海事通信卫星提供的AIS船舶动态数据分析疫情对港口贸易的影响等等。在这类复杂分析场景中,遥感影像、移动对象、物联通信等新型空天传感数据的快速获取、存储与高效查询处理为智能辅助决策起到关键作用。
2 空天大数据面临的挑战
数据结构复杂多样难以管理
相比文本型、图片型等非结构化数据,空天数据具有类型多样、高度非结构化、大单体、多维度等特征,给一体化数据管理和高效查询检索提出了极大挑战。例如:
- 百万点构成的超大复杂实体化对象,如长江/黄河、复杂建筑、灌区等;
- 千万点构成的移动对象时空轨迹,如车、船、航空器等超长行程数据;
- 万亿像素构成的大范围高分辨遥感影像连续覆盖……
数据动态变化要求更高维度计算
传统空间数据更多表达静态地物,如河流、铁路、建筑等。随着移动APP和IoT等技术的普及应用,以时空移动对象(人、车、船等)为代表的动态数据越来越多。记录位置的动态变化,需要系统提供时空建模、时空索引和时空分析计算能力。
大数据和大计算场景性能不佳
非结构化、大对象和动态性决定了空天数据的潜在大体量,单表小则千万级,大则百亿级场景将不再是个别现象,因此,对系统的存储成本、弹性能力、读写效率必将提出更高要求。当大规模数据要求提供在线化分析计算服务,传统基于离线预处理(如离线切片)方式的生产和应用流程将面临极大挑战。
智能化需要多模态数据融合管理
文本、时序、时空、图(Graph)等多模态数据融合管理和跨模查询分析是智能化的重要基础。单模态数据智能化无法有效支撑复杂业务知识发现并真正探寻事物发展规律和趋势,因此,从局部模型专业化到全局多模通用化仍存在较大鸿沟,需要从基础数据库形态层面发展全新架构。
3 达摩院首创空天数据库
针对此,达摩院研发新一代空天数据库引擎Ganos,从数据库与存储最底层解决空天数据的一体化管理、快速交叉融合查询以及高效分析处理挑战,实现 “亿级规模”地物多边形全图快显访问、秒级效率的“千万平方公里”遥感影像时空动态拼图等先进技术,具有“一体化融合管理、大规模弹性服务、核心技术自主可控”等优势,可面向空、天、地、海全域空间应用,成为支撑天联网和星云产业发展的新型数据库基础设施。
二 空天数据处理架构演进
1995年,美国ESRI公司为了满足2B市场需求,革命性地推出了空间数据引擎SDE——基于商业关系数据库+中间件架构建模我们的世界,影响了一代人。20多年过去了,随着Hadoop、Spark以及分布式数据库技术的演进,分布式空间数据引擎近年来得到了快速发展,在一些大规模空间数据分析处理场景中发挥了独特优势。那么,空间数据处理的下一站演进将去哪里?
我们认为,将空天信息处理融入PaaS服务(Platform as Services),以云数据库与存储平台为核心解决空天数据的实时接入、高效存储和弹性计算,是支撑时空信息云化架构向纵深发展的必然趋势。我们将之分解为平台即服务、多模融合、计算下推和云原生四个方向的架构演进。
1 平台即服务
与传统基于通用数据库作为存储,外置中间件形态的时空数据引擎方案不同,新一代空天数据库引擎采用了平台即服务架构。该架构将空天引擎内置于云上OLTP数据库、OLAP数据仓库、数据湖以及NoSQL多模数据库等不同系统,相比传统方案在易用性、计算效率和事务一致性处理上存在先天优势,且未来基于SQL标准化也能快速建立跨平台能力。通过产品组合可提供从在线处理到在线分析,到离线计算再到离线存储的海量空天大数据解决方案。
2 多模融合
传统时空数据处理以地理信息系统(GIS)或遥感图像处理平台软件为核心,强调平台专业性,但由于专业强化,形成专业度较高的半封闭系统,也会反向弱化和其他多模类型数据的融合处理能力;从IT视角出发,空天/时空数据将去中心化,成为各类多模数据的一类,并借助数据库建立普适关联,降低专业门槛。通过普适关联,将空天/时空数据与通用数据、文本、时序、图等多模数据一体化管理和处理,这种泛时空求解能力为大数据复杂业务开发将提供更大灵活性。
3 计算下推
计算下推是IT技术架构演进的一个重要趋势。将空间信息系统业务关键计算下推数据库与大数据系统,让计算离数据更近,可以直接利用存储计算下推、并行化处理、GPU/FPGA异构计算加速能力实现数据本地计算,不但能降低因大量中间结果数据网络传输导致的IO延迟,也能简化业务逻辑并整体提升业务系统性能。
4 云原生
新一代空天数据库引擎脱胎于公有云,并由公有云走向混合云。我们认为,数据要灵活,算法补;算法要灵活,算力补。举个例子,传统空天数据应用需要大量做切片预处理,导致数据应用不灵活。为了数据更灵活,业界引入了预先静态缓存+动态切片的算法,但这种算法显然很复杂;那么算法要灵活,必须要算力补,即借助足够弹性的算力来保障单一算法的纯粹性和普适性。这就要借助云原生能力。云原生的本质是资源池化,即通过资源池化实现弹性服务和规模化。云服务的本质就是算力经济。
三 积沙成塔,做好底座
遵循平台即服务、多模融合、计算下推和云原生理念,达摩院设计并实现了新一代空天数据库引擎Ganos。我们在全球空天网格编码、空天多模并行查询处理、大规模矢量图形快显加速等空天数据处理关键技术上不断探索并技术突破,建立了数据存储、索引、查询、分析和可视化支撑技术体系,在空天多模态数据处理核心领域形成差异化竞争力。
1 整体框架
Ganos取名于大地女神盖亚(Gaea)和时间之神柯罗诺斯(Chronos),代表空间+时间的深度结合。它并不是一款独立的云产品,而是一套空天\时空\多维数据存储与处理解决方案。系统底层提供了支撑海陆空天大规模数据存储能力,包括批量快速写入、空天多维表达、多维时空索引和冷热多级存储等,上层提供数据管理、交批查询处理以及分析计算与操作。
Ganos能力框架
从产品结构上,Ganos将空天数据处理能力融入云关系型数据库RDS PG、云原生关系型数据库PolarDB、云原生数据仓库AnalyticDB PostgreSQL、多模数据库Lindorm、数据湖分析DLA,基于产品组合构建空天数据库大数据一体化底座。进一步联合AI Earth(达摩院发布的首个泛自然资源行业AI引擎)、OSS对象存储、以及微服务框架等技术生态体系,为用户构建免切片存储、时空一体、动态计算、智能分析全新架构的云原生空天大数据平台提供了核心能力支撑,可广泛应用于城市管理、自然资源、应急管理、交通物流等不同行业。
Ganos生态系统
2 空天多模与全球网格编码
单一化模型已无法满足当前数字化新场景应用,Ganos从底层开发空天多模型引擎,已原生支持10多大类空天数据的存储、查询和分析计算。在此基础上,基于与多模数据库Lindorm集成,实现键值、宽表、时序、时空、搜索、文件等多模数据的一体化管理和处理。
空天多模型引擎
在此基础上,Ganos基于GeoSOT全球网格剖分理论,结合PolarDB引入了一种全新的网格数据类型geomgrid,支持空天对象打码和网格对象计算等操作。空天网格码是在GeoSOT地球空间剖分理论基础上发展出的一种离散化、多尺度区域位置标识和度量体系。该体系的核心是用一种新的方法,将地心至地上6万公里的地球空间剖分成数以兆亿个大小不等、多尺度、高精度的网格群,同时为每一个网格赋予全球唯一的整形数标识编码。系统可以无缝对接北京大学/旋极伏羲基于GeoSOT的网格大数据平台构建空天数据库-网格大数据一体化解决方案。原生网格数据类型的引入增强了空天数据库的统一时空标识能力、空天计算加速能力和基于地球空间网格的数据共享能力。
空天网格剖分示意图
3 存计分离与多级并行计算加速
基于PolarDB,Ganos采用了存计分离和分布式共享存储架构。计算和存储分离,将原有一体化设计的数据库的各个组件(计算/内存/存储)完全解耦,形成可独立伸缩的资源池。同时,为降低存计分离带来的写入和查询延迟,共享存储系统采用了端到端全用户态模式,融合了 RDMA、SPDK 等高速数据传输和存取软硬件技术,以及与近存储计算介质硬件结合的DB处理下推技术,有效地提升了空天数据的存储规模和处理能力 。
基于存计分离和分布式共享存储架构,Ganos进一步将两阶段查询增强和多节点并行查询有机结合,实现了跨节点空天并行查询处理框架。其中,三管齐下提升数据并行处理性能:
- 采用分布式共享存储架构有效避免了数据跨节点shuffle带来的网络IO开销;
- 基于拓扑索引的粗过滤加精过滤两阶段查询大幅提升空天数据查询过滤性能;
- 跨节点并行、节点内并行加算子级并行形成多级并行框架。经权威第三方测评结果表明,2亿级图斑做叠加分析并统计面积,采用80进程并行计算,10分钟即可出结果(中间包含裁剪出7800万超大结果集),比传统大数据方案至少快出一个数量级。
基于两阶段优化的跨节点并行查询处理框架
4 在线动态处理服务智能化
要构建空天“最强大脑”,需建立基于动态计算的数据组织、处理和应用模式。以大规模遥感影像数据处理为例,Ganos综合了PolarDB的空天索引、Lindorm的空天多模存储和DLA Serverless Spark的空天计算能力,为用户提供单元化存储、时空化组织和像素级调用的全新处理框架:
- 单元化存储:是以每一幅遥感影像为单元进行存储,避免做更多预处理,从而使数据保持足够灵活;
- 时空化组织:是以原始影像为单位,将时间维植入体系结构,从而使全量数据实现时空结构化;
- 像素级调用:设计理念上保留影像原始像元矩阵,确保每一寸像元信息精准,包括时间、空间和光谱信息,为智能化服务提供最鲜活原料。用户划定时间和空间边界等条件,Ganos借助弹性云算力,实现动态并行计算。
内部测试表明,基于Serverless弹性算力,千景遥感影像时空拼图效率可达到秒级,革新传统预处理/预切片模式为按需时空动态并行计算模式,节约至少50%存储和处理成本。
栅格动态时空拼图
5 视算统筹打破服务边界
空天数据是一种特殊的图形图像数据,同一套数据存储结构很难同时满足快计算和快显示需求,以往用户从查询分析计算延伸到数据大场景显示不得不经历数据结构大幅重构的复杂“熵增”过程。
Ganos的另一个设计述求是将计算和可视化进行统筹,数据库端将存储、计算和可视化打通。大体量的矢量数据入库后即时全局浏览一直是业界难题,额外找工具切图发布又耗时耗力。Ganos通过设计一种稀疏矢量金字塔索引,客户端可通过与数据库实时交互,秒级快速可视化访问“亿级规模”多边形地物,而创建索引仅需分钟级并消耗仅5%的额外存储空间。这种以数据库索引结构加速数据可视化方法极大降低了用户数据处理复杂度。这一技术可方便集成到PGAdmin等数管工具,亿级几何图形数据导入即可秒级全局可视化,解决了传统数管工具针对矢量大图“可查不可看”的历史难题。
基于【捷泰天域】提供亿级多边形真实数据实现终端快显访问
四 构建生态解决方案
1 DB for AI——与AI Earth数知地球集成
阿里巴巴达摩院自研AI Earth数知地球产品用于融合分析卫星影像、无人机影像、实时视频流、气象数据、IoT数据等多源地球观测数据,智能解译和实时感应建筑、土地、植被、河流等多种目标信息的变化,为地球环境生态多领域提供专业服务。
Ganos和AI Earth数知地球,正在用创新的方式,解决地球空天地海数据的管理与计算问题。这是一种DB for AI的产品组合,Ganos提供智能化存储与管理大规模空天数据能力,向上服务于AI Earth数知地球,支撑变化检测、地物分类和目标提取等操作,实现智能化计算分析与信息深度挖掘。
DB for AI: Ganos + AI Earth
2 DB for GIS——与GIS平台共建
GIS平台是空间数据处理的专业化系统。DB for GIS,将改变二十多年来GIS与通用数据库的传统对接模式。GIS的核心空间计算下推以云原生数据库为核心的云基础平台实现计算加速将是下一代GIS系统可行的发展路径。Ganos已与SuperMap(超图)、ArcGIS(ESRI)、MapGIS(中地)等主流GIS基础平台软件完成兼容适配,可支撑已有GIS应用的无缝迁移。GIS平台空间数据引擎可以将空间查询和分析计算下推Ganos,利用空天数据库引擎的多模处理、高效索引、多级并行计算、资源弹性调度实现计算加速。反过来,Ganos也借助GIS平台工具实现地上地下、室内室外、陆地海洋全空间建模与数据展现。
DB for GIS架构
与GIS平台的深度融合,践行了阿里云的被集成战略,顺应了“一横一竖”的平台策略。通过“一竖”完成垂直整合,即GIS平台借助技术集成Ganos提升了系统整体性能,而Ganos借助GIS平台拓宽了空间业务能力宽度。“一横”是通过品牌叠加,共同构建了平台生态,为强GIS数字化领域应用提供专业的全空间数字化解决方案能力。“一横一竖”整合,扩大了空间数据服务的“面积”。
五 支撑空天地海应用
站在云端,传统空间信息行业的边界在逐渐打破,空天应用的涵盖不断外延。空天数据库引擎Ganos已在天、空、地、海全域空间获得应用,覆盖自然资源、灾害应急、交通物流、航空航天、出行、安全、农业、海洋、水利、科教以及社交、健身、游戏、O2O等不同行业方向。
与飞常准及超图合作,实现25亿全球航班轨迹点毫秒级时空回放与展示
支撑阿里巴巴数字星球引擎,使PB级大规模遥感数据的时空动态组织、按需逻辑拼接和像素级快速访问调用成为可能
在农业信息化领域,以国源科技为代表的农业地理大数据平台,通过2B业务转型,依托Ganos管理地理信息资源,融合云上的人工智能和大数据技术,为现代化农业建设提供农业大数据新型产品和服务
与DataV集成,为阿里云三维城市渲染引擎专业版DataV.CityPro提供空天数据检索和多维地形分析能力
与北大旋极网格大数据平台建立深度对接,建立网格数据库+大数据一体化解决方案
联合达摩院数知地球(AI Earth),形成遥感大数据管理与AI一体化智能平台,应用于自然资源、环保、水利等领域省部级应用
赋能全球自然灾害风险大数据服务平台,完整支撑全球地震、台风、滑坡、林草火灾等12个灾种时空过程建模和风险图发布
六 结语
在云计算和大数据时代,空天大数据将成为位置智能化的基础核心。让卫星“天眼”更显神通,让IoT设备更具智能,需建立全新的空天数据组织、处理和应用模式。未来,我们将位置信息、时态信息和多模态信息实现进一步融合管理和处理,拓展计算智能并将场景延伸到深地、深海、深空。Ganos将始终立足云空天基础设施能力建设,解构空天多模与编码、分布式并行计算加速、在线动态处理等关键技术,为企业构建空天“最强大脑”提供基础云服务,推动时空云计算作为数字化转型的基础引擎普惠到更多客户。
本文为阿里云原创内容,未经允许不得转载。
达摩院重要科技突破!空天数据库引擎Ganos解读的更多相关文章
- TOP100summit 2017:投资千亿成立达摩院,揭秘阿里在人工智能领域的探索
今天上午,阿里巴巴云栖大会在杭州开幕,第一条重磅消息是阿里首席技术官张建锋宣布成立达摩院,在全球各地建立实验室,3年内投入千亿在全球建立实验室.和高校建立研究所.建立全球研究中心等事务. 该院由全球实 ...
- 邀您共赴数据库学术顶会ICDE 2019——阿里云专场 零距离接触达摩院数据库“最强大脑”
摘要: 当学术大家遇到技术大拿,会碰撞出怎样的火花?为进一步加深产学研学术交流,阿里云将于ICDE 2019大会期间(4月9日)举办以“云时代的数据库”为主题的技术专场(Workshop) 作为全球数 ...
- 阿里云在云栖大会发布RPA最新3.4版本,将与达摩院联合探索人工智能领域
9月26日,在2019年杭州云栖大会上,阿里云发布了RPA最新V3.4版本,全新升级了增加诸如录屏审计.JAVA应用录制能力.达摩院OCR内置组件.语法检查与智能提示能力增强等功能. RPA全名称Ro ...
- 阿里开源新一代 AI 算法模型,由达摩院90后科学家研发
最炫的技术新知.最热门的大咖公开课.最有趣的开发者活动.最实用的工具干货,就在<开发者必读>! 每日集成开发者社区精品内容,你身边的技术资讯管家. 每日头条 阿里开源新一代 AI 算法模型 ...
- CVPR2020| 阿里达摩院最新力作SA-SSD
作者:蒋天园 Date:2020-04-16 来源:SA-SSD:阿里达摩院最新3D检测力作(CVPR2020) Brief 来自CVPR2020的研究工作,也是仅仅使用Lidar数据进行3D检测的文 ...
- CoolHash数据库引擎压测对比报告
Coolhash 当前性能指标:读写吞吐量超过百万,千万级别查询1秒完成,连续48小时打满CPU强压力运行稳定.redis官方公布读写性能在10万 tps,leveldb官方公布写性能在40万tps, ...
- MySQL数据库引擎介绍、区别、创建和性能测试的深入分析
本篇文章是对MySQL数据库引擎介绍.区别.创建和性能测试进行了详细的分析介绍,需要的朋友参考下 数据库引擎介绍 MySQL数据库引擎取决于MySQL在安装的时候是如何被编译的.要添加一个新的引擎 ...
- [转]MySQL数据库引擎介绍、区别、创建和性能测试的深入分析
本篇文章是对MySQL数据库引擎介绍.区别.创建和性能测试进行了详细的分析介绍,需要的朋友参考下 数据库引擎介绍 MySQL数据库引擎取决于MySQL在安装的时候是如何被编译的.要添加一个新的引擎 ...
- [转]MySQL数据库引擎
经常用MySQL数据库,但是,你在用的时候注意过没有,数据库的存储引擎,可能有注意但是并不清楚什么意思,可能根本没注意过这个问题,使用了默认的数据库引擎,当然我之前属于后者,后来成了前者,然后就有了这 ...
- (转)MySQL数据库引擎ISAM MyISAM HEAP InnoDB的区别
转自:http://blog.csdn.net/nightelve/article/details/16895917 MySQL数据库引擎取决于MySQL在安装的时候是如何被编译的.要添加一个新的引擎 ...
随机推荐
- 结构体、共用体与C++基础
结构体.共用体与C++基础 1.结构体 结构体是C编程中一种用户自定义的数据类型,类似于Java的JavaBean //Student 相当于类名 //student和a 可以不定义,表示结构变量,也 ...
- MySQL(表相关操作)
一 存储引擎 日常生活中文件格式有很多,并且针对不同的文件格式会有对应不同存储方式 和处理机制(txt.word) 针对不同的数据应该有对应的不同的处理机制来存储 存储引擎就是不同的处理机制 MySQ ...
- Garnet发布 Redis不再是唯一选择
Garnet 是 Microsoft Research 的远程缓存存储,提供强大的性能(吞吐量和延迟).可扩展性.存储.恢复.集群分片.密钥迁移和复制功能. Garnet 可以与现有的 Redis 客 ...
- 嵌入式C语言设计学习之C语言回顾
C的基本语法-回忆 1.C的结构 C语言的结构还是以函数为主体,通过其他资源的添加来实现高级语言逻辑.所有的操作都是基于主函数展开的.以主函数为顺序列表,其他函数作为功能模块,组成一个完整的系统.所以 ...
- 浅谈 KingbaseES 和 SQLServer 中的 instead of 触发器
本文基于Kingbase和SqlServer的INSTEAD OF 触发器主要功能特点进行对比浅析,同时针对SqlServer 的INSTEAD OF 触发器提出了多种kingbase环境的等价代码方 ...
- C++设计模式 - 原型模式(Prototype)
对象创建模式 通过"对象创建" 模式绕开new,来避免对象创建(new)过程中所导致的紧耦合(依赖具体类),从而支持对象创建的稳定.它是接口抽象之后的第一步工作. 典型模式 Fac ...
- OpenHarmony Docker移植实践
Docker简介 从操作系统诞生之日起,虚拟化技术就不断的演进与发展,结合目前云原生的发展态势,容器无疑是其中的重要一环. Docker是一个开源的软件项目,可以在Linux操作系统上提供一层额外的 ...
- Java 异常处理与正则表达式详解,实例演练及最佳实践
Java 异常 - Try...Catch 在 Java 代码执行期间,可能会发生各种错误,包括程序员编码错误.用户输入错误以及其他不可预料的状况. 当错误发生时,Java 通常会停止并生成错误消息, ...
- mysql系列之杂谈(一)
从刚开始工作到现在,除了实习的时候在国企用过oracle,毕业之后陪伴我的数据库一直都是mysql,而由于mysql的开源特性,也让成为无数公司的宠儿,越走越远. 我们在刚开始使用mysql时,会发现 ...
- VS 在 Release 模式下使用断点调试程序
修改方法: 项目属性 --> c/c++ --> 常规 --> 调试信息格式 选择程序数据库 (默认:无) 项目属性 --> c/c++ --> 优化 --> 优化 ...