如何使用Cassandra来存储time-series类型的数据

Cassandra非常适合存储时序类型的数据，本文我们将使用一个气象站的例子，该气象站每分钟需要存储一条温度数据。

一、方案1，每个设备占用一行

这个方案的思路就是给每个数据源创建一行，比如这里一个气象站的温度就占用一行，然后每个分钟要采集一个温度，那么就让每个时刻的时标将作为列名，而温度值就是列值。

（1）创建表的语句如下：

CREATE TABLE temperature (

weatherstation_id text,

event_time timestamp,

temperature text,

PRIMARY KEY (weatherstation_id,event_time)
);

（2）然后插入如下数据。

INSERT INTO temperature(weatherstation_id,event_time,temperature)
VALUES ('1234ABCD','2013-04-03 07:01:00','72F');

INSERT INTO temperature(weatherstation_id,event_time,temperature)
VALUES ('1234ABCD','2013-04-03 07:02:00','73F');

INSERT INTO temperature(weatherstation_id,event_time,temperature)
VALUES ('1234ABCD','2013-04-03 07:03:00','73F');

INSERT INTO temperature(weatherstation_id,event_time,temperature)
VALUES ('1234ABCD','2013-04-03 07:04:00','74F');

（3）如果要查询这个气象站的所有数据，则如下

SELECT event_time,temperature
FROM temperature
WHERE weatherstation_id='1234ABCD';

（4）如果要查询某个时间范围的数据，则如下：

SELECT temperature
FROM temperature
WHERE weatherstation_id='1234ABCD'
AND event_time > '2013-04-03 07:01:00'

二、方案2，每个设备的每天的数据占用一行

有时候把一个设备的所有数据存储在一行可能有点困难，比如放不下（这种情况应该很少见），此时我们就可以对上一个方案做拆分，在row key中增加一个表示，比如可以限制把每个设备每一天的数据放在单独一行，这样一行的数量大小就可控了。

（1）创建表

CREATE TABLE temperature_by_day (

weatherstation_id text,

date text,

event_time timestamp,

temperature text,

PRIMARY KEY ((weatherstation_id,date),event_time)
);

（2）插入数据

INSERT INTO
temperature_by_day(weatherstation_id,date,event_time,temperature)
VALUES ('1234ABCD','2013-04-03','2013-04-03 07:01:00','72F');

INSERT INTO
temperature_by_day(weatherstation_id,date,event_time,temperature)
VALUES ('1234ABCD','2013-04-03','2013-04-03 07:02:00','73F');

INSERT INTO
temperature_by_day(weatherstation_id,date,event_time,temperature)
VALUES ('1234ABCD','2013-04-04','2013-04-04 07:01:00','73F');

INSERT INTO
temperature_by_day(weatherstation_id,date,event_time,temperature)
VALUES ('1234ABCD','2013-04-04','2013-04-04 07:02:00','74F');

（3）查询某个设备某一天的数据

SELECT *
FROM temperature_by_day
WHERE weatherstation_id='1234ABCD'
AND date='2013-04-03';

三、方案3，存储带时效性的数据，过期就自动删除

对于时序的数据的另外一种典型应用就是要做循环存储，想象一下，比如我们要在一个dashboard展示最新的10条温度数据，老的数据就没用了，可以不用理会。如果使用其他的数据库，我们往往需要设置一个后台的job去对历史数据做定时清理，我们现在使用pg的时候就是这么干的。但是使用Cassandra，我们可以使用Cassandra的一个叫做过期列（expiring colmn）的新特性，只要超过指定的时间，这个列就自动消失了。

（1）创建表

CREATE TABLE latest_temperatures (

weatherstation_id text,

event_time timestamp,

temperature text,

PRIMARY KEY (weatherstation_id,event_time),

) WITH CLUSTERING ORDER BY (event_time DESC);

（2）插入数据

INSERT INTO
latest_temperatures(weatherstation_id,event_time,temperature)
VALUES ('1234ABCD','2013-04-03 07:03:00','72F') USING TTL 20;

INSERT INTO
latest_temperatures(weatherstation_id,event_time,temperature)
VALUES ('1234ABCD','2013-04-03 07:02:00','73F') USING TTL 20;

INSERT INTO
latest_temperatures(weatherstation_id,event_time,temperature)
VALUES ('1234ABCD','2013-04-03 07:01:00','73F') USING TTL 20;

INSERT INTO
latest_temperatures(weatherstation_id,event_time,temperature)
VALUES ('1234ABCD','2013-04-03 07:04:00','74F') USING TTL 20;

（3）观察

在插入数据之后，你可以不断的使用查询语句来看这些数据，我们可以看到他们一条一条的消失，直到最后所有都没了。

总结：

time-series是Cassandra最有竞争力的数据模型之一，

原文摘要：

1） Cassandra can store up to 2 billion columns per row

参考资料：

https://academy.datastax.com/resources/getting-started-time-series-data-modeling

http://www.rubyscale.com/post/143067470585/basic-time-series-with-cassandra

http://www.datastax.com/dev/blog/advanced-time-series-with-cassandra

附件列表

如何使用Cassandra来存储time-series类型的数据的更多相关文章

Cassandra存储time series类型数据时的内部数据结构？
因为我一直想用Cassandra来存储我们的数字电表中的数据,按照之前的文章(getting-started-time-series-data-modeling)的介绍,Cassandra真的 ...
c#学习基础（2）存储、值类型和引用类型、变量
程序运行时,它的数据必须存储在内存中,数据项需要多大的内存.存储在什么地方以及如何存储都依赖该数据项的类型运行中的程序使用两个区域来存储数据:栈和堆栈是一个内存数组,是一个LIFO(last in ...
JanusGraph ：Cassandra作为存储后端的情况下，JanusGraph的安装方法
Cassandra作为存储后端的情况下,JanusGraph的安装方法 Cassandra作为存储后端的情况下,JanusGraph的安装分为四种方式. 分别是: 1.本地服务器模式(这里的服务器指的 ...
pandas库Series类型与基本操作
pandas读取excel的类型是dataFrame,然后提取每一列是一个Series类型 Series类型包括index和values两部分 a = pd.Series({'a':1,'b':5}) ...
使用Hive或Impala执行SQL语句，对存储在HBase中的数据操作
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作(二)
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作
http://www.cnblogs.com/wgp13x/p/4934521.html 内容一样,样式好的版本. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据 ...
C# Winform中执行post操作并获取返回的XML类型的数据
/// <summary> /// 返回指定日期的订单数据 /// </summary> /// <param name="StartDate"> ...
ElasticSearch 学习记录之分布式文档存储往ES中存数据和取数据的原理
分布式文档存储 ES分布式特性屏蔽了分布式系统的复杂性集群内的原理垂直扩容和水平扩容真正的扩容能力是来自于水平扩容–为集群添加更多的节点,并且将负载压力和稳定性分散到这些节点中 ES集群特点 ...

随机推荐

css 中两个class之间没有空格与有空格有什么区别
第一个匹配: <div class="ul item"></div>:无法匹配:<div class="ul"></d ...
poj2828 伸展树模拟
用伸展树模拟插队比线段树快乐3倍.. 但是pojT了.别的oj可以过,直接贴代码. 每次更新时,找到第pos个人,splay到根,然后作为新root的左子树即可 #include<iostrea ...
python 全栈开发，Day116(可迭代对象,type创建动态类,偏函数,面向对象的封装,获取外键数据,组合搜索,领域驱动设计(DDD))
昨日内容回顾 1. 三个类 ChangeList,封装列表页面需要的所有数据. StarkConfig,生成URL和视图对应关系 + 默认配置 AdminSite,用于保存数据库类和处理该类的对 ...
SpringMVC集成springfox-swagger2自动生成接口文档
本节内容: 什么是Swaggger Springfox与Swagger的关系 SpringMVC集成springfox-swagger2 一.什么是Swaggger Swagger是一个流行的API开 ...
CS224d 单隐层全连接网络处理英文命名实体识别tensorflow
什么是NER? 命名实体识别(NER)是指识别文本中具有特定意义的实体,主要包括人名.地名.机构名.专有名词等.命名实体识别是信息提取.问答系统.句法分析.机器翻译等应用领域的重要基础工具,作为结构化 ...
[九省联考2018]一双木棋chess
题解: 水题吧首先很显然的是状压或者搜索考虑一下能不能状压吧这个东西一定是长成三角形的样子的所以是可以状压的相邻两位之间有几个0代表他们差几这样最多会有2n 然后就可以转移了由于之前对博 ...
zjoi2010基站选址
线段树优化dp 题解: 首先dp挺简单的 f[i,k]=f[j,k-1]+solve(i+1,j-1) 然后这个是可以n^2*k搞得然后考虑这个solve(i+1,j-1) 当i延伸了一个位置的时候 ...
【Java】剑指offer(13) 剪绳子
本文参考自<剑指offer>一书,代码采用Java语言. 更多:<剑指Offer>Java实现合集题目给你一根长度为n绳子,请把绳子剪成m段(m.n都是整数,n> ...
maven添加插件，与maven打包
1.编译插件添加编译器插件来告诉 Maven 使用哪个 JDK 版本是用来编译项目. 2.pom <plugin> <groupId>org.apache.maven.plu ...
vi命令修改文件及保存的使用方法
简单点:vi文件名,按"I"进入insert模式,可以正常文本编辑,编辑好之后按“esc”退出到“命令模式”,再按“shift+:”进入“底行模式”, 按“:wq”保存退出! 还一 ...

如何使用Cassandra来存储time-series类型的数据

附件列表

如何使用Cassandra来存储time-series类型的数据的更多相关文章

随机推荐

热门专题