利用可排序Key-Value DB构建时间序列数据库(简论)
为了防止无良网站的爬虫抓取文章,特此标识,转载请注明文章出处。LaplaceDemon/ShiJiaqi。
http://www.cnblogs.com/shijiaqi1066/p/5855064.html
本文使用LevelDB,HBase这类列式存KV储数据来构建时间序列数据库。
时间序列数据的特征
经典物理世界,若需要进行测量,则首先需要标注出来。所以首先物体需要有一个ObjectName。
物体有一些静态属性。静态属性不随时间发送变化。时间序列数据一般不关注静态属性。
还有一些动态属性。动态属性的值会随时间发送变化,一般的动态属性被称为指标。指标的名称即metricName。
基础表
Meta
物体与指标都具有名称。而名称字符串应该与一个无符号整数映射起来。即存储ObjectName与ObjectId的对应关系。
Data
使用SSTable存储KV型数据。支持Scan查询。存储Key与Value的关系。
时间序列数据库的查询需求
在不考虑聚合问题的前提下,一般的时间序列数据的查询有以下需求:
查询一段时间([timestamp0,timestam1])内某个object的所有metric的值。 ==> 抽象成函数即 query( objectId , timestamp0 , timestamp1 )
查询一段时间([timestamp0,timestam1])内某个object的某个metric的值。 ==> 抽象成函数即 query( objectId , metricId , timestamp0 , timestamp1 )
查询一段时间内所有object的某个metric的值。 == > 抽象成函数即 query( metricId , timestamp0 , timestamp1 )
查询一段时间内所有object的所有metric的值。 == > 抽象成函数即 query( timestamp0 , timestamp1 )
一般的 query( objectId , metricId , timestamp0 , timestamp1 ) 这种查询更为常见。
Key的构造
方法1:
timestamp | objectId | metricId
数据按时间顺序排序。是一种比较合理的构造方法,适合object较少的情况。
方法2:
timestamp | metricId | objectId
与方法1的应用场景一致。适合object较少的情况。且适合指定metricId的查询。
方法3:
objectId | timestamp | metricId
可以方便的查询,查询一段时间([timestamp0,timestam1])内某个object的所有指标值。即:query( objectId , timestamp0 , timestam1 )
但对一段时间([timestamp0,timestam1])内某个object的某个metric值,性能会稍显不足。这是因为在查询过程中需要过滤掉非指定metricId的指标。
比如一个object有30个metric,当前只需要查询object的metric1。则需要跳过{metric2 , metric3 , ...... , metric30 }的值。效率明显降低了。
方法4:
objectId | metricId | timestamp
可以方便查询一段时间([timestamp0,timestam1])内某个object的某个metric值。
但是如果需要查询一段时间([timestamp0,timestam1])内某个object的所有指标值,就会有所困难。
方法5:
改进方法4:在Meta中记录每个objectId与metricId的映射关系。即需要增加一张Mapping表。
查询一段时间([timestamp0,timestam1])内某个object的所有指标值,需要先从Mapping表中查询objectId具有的metricIds集合:
objectId ==> {metric1,metric2,metric3,metric4,...metricN}
然后按照对每一个metricId进行查询:
query( objectId , metric1 , [timestamp0,timestam1] )
query( objectId , metric2 , [timestamp0,timestam1] )
query( objectId , metric3 , [timestamp0,timestam1] )
......
query( objectId , metricN , [timestamp0,timestam1] )
查询后,把各个merge起来。
数值存储
数据存储于磁盘上都是以字节数组存储的。当读出来时需要知道存储时的数据格式。所以,需要把存储时的值格式记录下来。
静态数值类型
存储前,定义存储格式,并记录下来。存储时按照定义的存储格式进行序列化。类似于MySQL的使用方式。
动态数值类型
在数值序列化成byte[]后,用1个byte标记数值类型。并将整个byte添加到byte[]之前。合一起后存储下来。
即: typeByte | valueBytes
读取数值时,按照第一个typeByte的值来解析后面的byte[]。
动态数值类型更加灵活,但每一条数据都需要多存储1个byte的额外信息。对于静态数值类型,会造成存储空间的浪费。
设计一个完整的时间序列数据库
元信息层
ObjectMeta表
objectName-objectId
MetricMeta表
metricName-metricId
ObjectMetricMeta表
objectId-metricId
静态层存储
业务层存储(不存在于时间序列数据库中)
staitcData
objectId-metricId-value
动态属性值存储
objectId|metricId|timestamp <--> (valueType) value
为了防止无良网站的爬虫抓取文章,特此标识,转载请注明文章出处。LaplaceDemon/ShiJiaqi。
http://www.cnblogs.com/shijiaqi1066/p/5855064.html
利用可排序Key-Value DB构建时间序列数据库(简论)的更多相关文章
- POJ - 3249 Test for Job (在DAG图利用拓扑排序中求最长路)
(点击此处查看原题) 题意 给出一个有n个结点,m条边的DAG图,每个点都有权值,每条路径(注意不是边)的权值为其经过的结点的权值之和,每条路径总是从入度为0的点开始,直至出度为0的点,问所有路径中权 ...
- 时间序列数据库调研之InfluxDB
基于 Go 语言开发,社区非常活跃,项目更新速度很快,日新月异,关注度高 测试版本 1.0.0_beta2-1 安装部署 wget https://dl.influxdata.com/influxdb ...
- [转帖]时间序列数据库 (TSDB)
时间序列数据库 (TSDB) https://www.jianshu.com/p/31afb8492eff 0.3392019.01.28 10:51:33字数 5598阅读 4030 背景 2017 ...
- 时间序列数据库武斗大会之 KairosDB 篇
[编者按] 刘斌,OneAPM后端研发工程师,拥有10多年编程经验,参与过大型金融.通信以及Android手机操作系的开发,熟悉Linux及后台开发技术.曾参与翻译过<第一本Docker书> ...
- 时间序列数据库——索引用ES、聚合分析时加载数据用什么?docvalues的列存储貌似更优优势一些
加载 如何利用索引和主存储,是一种两难的选择. 选择不使用索引,只使用主存储:除非查询的字段就是主存储的排序字段,否则就需要顺序扫描整个主存储. 选择使用索引,然后用找到的row id去主存储加载数据 ...
- 时间序列数据库(TSDB)初识与选择
时间序列数据库(TSDB)初识与选择 本文作者由 MageByte 团队的 「借来方向」编写,关注公众号 给你更多硬核技术 背景 这两年互联网行业掀着一股新风,总是听着各种高大上的新名词.大数据.人工 ...
- 时间序列数据库(TSDB)初识与选择(InfluxDB、OpenTSDB、Druid、Elasticsearch对比)
背景 这两年互联网行业掀着一股新风,总是听着各种高大上的新名词.大数据.人工智能.物联网.机器学习.商业智能.智能预警啊等等. 以前的系统,做数据可视化,信息管理,流程控制.现在业务已经不仅仅满足于这 ...
- 为物联网而生:高性能时间序列数据库HiTSDB商业化首发!
为什么80%的码农都做不了架构师?>>> 摘要: 近日,阿里云宣布高性能时间序列数据库 (High-Performance Time Series Database , 简称 H ...
- Akumuli时间序列数据库——列存储,LSM,MVCC
Features Column-oriented time-series database. Log-structured append-only B+tree with multiversion c ...
随机推荐
- mysql from dual插入实现不插入重复记录
在mysql中插入一或者多条记录的时候,要求某个字段的值唯一,但是该字段没有添加唯一性索引,可用from dual解决. select * from (select '2015080109' a,2 ...
- dispatch_queue_set_specific可重入的gcd
有时候我们很希望知道当前执行的queue是谁,比如UI操作需要放在main queue中执行.如果可以知道当前工作的queue是谁,就可以很方便的指定一段代码操作在特定的queue中执行.这种做法让G ...
- 【SQL】SQL存储过程相关当前理解。(@temp=……)
1.下图左侧红框中的是SQL的存储过程,是程序同SQL之间互相调用的函数.——这里先作为了解不做深入研究. 比如客户通过ATM提款机取200元钱,程序中提交取200元钱操作,后续可能会进入SQL进行一 ...
- (转)Geth控制台使用及Web3.js使用实战
在开发以太坊去中心化应用,免不了和以太坊进行交互,那就离不开Web3.Geth 控制台(REPL)实现了所有的web3 API及Admin API,使用好 Geth 就是必修课.结合Geth命令用法阅 ...
- div+CSS实现页面的布局要点记录
1.页面任何控件可以通过div包装为一个模块,然后通过margin(外补丁)和padding(内补丁)对控件位置的摆放进行控制,以实现想要的效果. 2.position:absolute;对控件实现绝 ...
- MyBatis SpringMVC映射配置注意
applicationContext.xml中要配置 <!-- MyBatis 的 sqlSessionFactory --> <bean id="sqlSessionFa ...
- 亲爱的,我是一条Linux运维技术学习路径呀。
根据我的经验,人在年轻时,最头疼的一件事就是决定自己这一生要做什么.在这方面,我倒没有什么具体的建议:干什么都可以,但最好不要写小说,这是和我抢饭碗.总而言之,干什么都是好的:但要干出个样子来,这才是 ...
- git checkout .还可以恢复吗
说实话,希望很渺茫, 如果你在git checkout . 之前操作了git stash ,还是可以恢复的,操作如下: 最后修改文件恢复了! 但是如果你在git checkout .之前没有git ...
- 关于RTSP-Over-HTTP
--------------------更新2018.07.10------------------- myRtspClient-1.3.0开始支持RTSP-Over-HTTP ----------- ...
- [LeetCode] 643. Maximum Average Subarray I_Easy tag: Dynamic Programming(Sliding windows)
Given an array consisting of n integers, find the contiguous subarray of given length k that has the ...