Cassandra 提供了三种集合类型，分别是Set,List,Map
Set: 非重复集，存储了一组类型相同的不重复元素，当被查询时会返回排好序的结果，但是内部构成是无序的值，应该是在查询时对结果进行了排序。
List: 列表，查询时会按照元素在list中的index顺序来返回结果，可以存储多个重复的值。
Map：哈希Key-Value键值对，提供了名字到值的映射

-- 开始工作：

bin/cqlsh localhost

-- 查看所有的键空间：

DESCRIBE keyspaces

-- 使用创建的键空间：

USE myks;

-- 查看已有表：

describe tables;

-- 查看表结构：

describe table user_status_updates;

Set

-- 修改表结构，增加一个列，用于存储评星用户记录

ALTER TABLE "user_status_updates"

ADD "starred_by_users" text;

-- 查询出一个空记录

SELECT "starred_by_users"

FROM "user_status_updates"

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

-- 修改记录，增加评星用户

UPDATE "user_status_updates"

SET "starred_by_users" = '["bob"]'

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

-- 事实上，可以直接定义列的类型为集合列，而不是定义为Text类型

ALTER TABLE "user_status_updates"

DROP "starred_by_users";

-- 注意一下：SET<text>类型

ALTER TABLE "user_status_updates"

ADD "starred_by_userss" SET<text>;

-- 修改记录方法1，增加评星用户，这次是集合，使用{}来存储多条数据

UPDATE "user_status_updates"

SET "starred_by_userss" = {'bob'}

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

-- 修改记录方法2，用+

UPDATE "user_status_updates"

SET "starred_by_userss" = "starred_by_userss" + {'carol'}

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

UPDATE "user_status_updates"

SET "starred_by_userss" = "starred_by_userss" + {'dave'}

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

-- 修改记录方法2，用-

UPDATE "user_status_updates"

SET "starred_by_userss" = "starred_by_users" - {'dave'}

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

UPDATE "user_status_updates"

SET "starred_by_userss" = "starred_by_userss" + {'carol'}

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

-- 多加几个为了测试排序

UPDATE "user_status_updates"

SET "starred_by_userss" = "starred_by_userss" + {'alice'}

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

SELECT "starred_by_userss"

FROM "user_status_updates"

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

查询结果发现，是经过了排序：
starred_by_userss
-----------------------------------
{'alice', 'bob', 'carol', 'dave'}

集合列表List

和上面的差不多，区别是允许重复，并且没有排序。

ALTER TABLE "user_status_updates"

ADD "shared_by" LIST<text>;

UPDATE "user_status_updates"

SET "shared_by" = ['bob']

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

UPDATE "user_status_updates"

SET "shared_by" = "shared_by" + ['carol']

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

UPDATE "user_status_updates"

SET "shared_by" = ['dave'] + "shared_by"

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

UPDATE "user_status_updates"

SET "shared_by"[] = 'robert'

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

UPDATE "user_status_updates"

SET "shared_by"[] = 'maurice'

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

UPDATE "user_status_updates"

SET "shared_by" = "shared_by" - ['carol']

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

--删除记录的方法是按照index顺序下标进行删除

DELETE "shared_by"[]

FROM "user_status_updates"

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

UPDATE "user_status_updates"

SET "shared_by" = "shared_by" + ['arol']

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

-- 查询

SELECT "shared_by"

FROM "user_status_updates"

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

查询结果发现，没有排序：
shared_by
----------------------------
['dave', 'robert', 'arol']

Map

存储键值对，键是唯一和无序的。

ALTER TABLE "users"

ADD social_identities MAP<text,bigint>;

UPDATE "users"

SET "social_identities" = {'twitter': 353637}

WHERE "username" = 'alice';

UPDATE "users"

SET "social_identities"['instagram'] = 9839025,

"social_identities"['yo'] = 25

WHERE "username" = 'alice';

UPDATE "users"

SET "social_identities"['twitter'] = 2725634

WHERE "username" = 'alice';

DELETE "social_identities"['instagram']

FROM "users"

WHERE "username" = 'alice';

INSERT INTO "users" (

"username", "email", "encrypted_password",

"social_identities", "version"

) VALUES (

'ivan',

'ivan@gmail.com',

0x48acb738ece5780f37b626a0cb64928b,

{'twitter': 875958, 'instagram': 109550},

NOW()

);

使用TTL

UPDATE users USING TTL <computed_ttl>

SET todo['2012-10-1'] = 'find water' WHERE user_id = 'frodo';

INSERT INTO users

(user_name, password)

VALUES ('cbrown', 'ch@ngem4a') USING TTL 86400;

在设定的computed_ttl数值秒后，数据会自动删除。

使用集合类型要注意：
1.集合的每一项最大是64K。
2.保持集合内的数据不要太大，免得Cassandra 查询延时过长，只因Cassandra 查询时会读出整个集合内的数据，集合在内部不会进行分页，集合的目的是存储小量数据。
3.不要向集合插入大于64K的数据，否则只有查询到前64K数据，其它部分会丢失。

正确的查询姿势

如果查询条件where跟随集合列的时候会报错，是因为没有建立索引
InvalidRequest: Error from server: code=2200 [Invalid query] message="Cannot execute this query as it might involve data filtering and thus may have unpredictable performance. If you want to execute this query despite the performance unpredictability, use ALLOW FILTERING"

-- 正确的查询姿势，先创建索引

CREATE INDEX ON "user_status_updates" ("starred_by_userss");

SELECT * FROM "user_status_updates"

WHERE "starred_by_userss" CONTAINS 'alice';

-- map类型也是

CREATE INDEX ON "users" (KEYS("social_identities"));

SELECT "username", "social_identities"

FROM users

WHERE "social_identities" CONTAINS KEY 'twitter';

SELECT "shared_by"[]

FROM "user_status_updates"

WHERE "username" = 'alice'

AND "id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02;

SELECT "social_identities"['twitter']

FROM "users"

WHERE "username" = 'alice';

SELECT * FROM "user_status_updates"

WHERE "username" = 'alice'

ORDER BY "id" ASC

LIMIT 2;

DROP INDEX user_social_identities_idx;

ALTER TABLE "users" DROP social_identities;

ALTER TABLE "users" ADD social_identities set<text>;

元组和自定义类型

-- 元组

ALTER TABLE "users"

ADD "education" frozen <tuple<text, int>>;

ALTER TABLE "users"

DROP "education";

ALTER TABLE "users"

ADD "education" tuple<text, int>;

UPDATE "users"

SET "education" = ('Big Data University', 2019)

WHERE "username" = 'alice';

UPDATE "users"

SET "education" = ('Cassandra College', null, null)

WHERE "username" = 'bob';

UPDATE "users"

SET "education" = ('BDU')

WHERE "username" = 'alice';

UPDATE "users"

SET "education" = ('Big Data University', 2003)

WHERE "username" = 'alice';

CREATE INDEX ON "users" ("education");

SELECT "username", "education" FROM users;

SELECT "username", "education" FROM users

WHERE "education" = ('Big Data University', 2003);

-- 自定义类型

CREATE TYPE "education_information" (

"school_name" text,

"graduation_year" int

);

ALTER TABLE "users" DROP "education";

ALTER TABLE "users"

ADD "education" frozen <"education_information">;

UPDATE "users"

SET "education" = {

"school_name": 'Big Data University',

"graduation_year": 2003

}

WHERE "username" = 'alice';

CREATE INDEX ON "users" ("education");

SELECT "username", "education" FROM "users"

WHERE "education" = {

"school_name": 'Big Data University',

"graduation_year": 2003

};

SELECT "username", "education"."school_name"

FROM "users"

WHERE "username" = 'alice';

ALTER TABLE "users"

ADD "telephone_numbers" map<text, set<text>>;

ALTER TABLE "users"

ADD "telephone_numbers" map<text, frozen<set<text>>>;

UPDATE "users"

SET "telephone_numbers"['home'] = {'', ''}

WHERE "username" = 'alice';

UPDATE "users"

SET "telephone_numbers"['office'] = {'', ''}

WHERE "username" = 'alice';

ALTER TABLE "users"

ADD "education_history" set<frozen<"education_information">>;

UPDATE "users"

SET "education_history" = {{

"school_name": 'Big Data University',

"graduation_year": 2003

},{

"school_name": 'Cassandra College',

"graduation_year": 2005

}}

WHERE "username" = 'alice';

时间序列数据库

目前业界时间序列数据库可以分成两类，基于现有的数据库或者专门为时间序列数据写的数据库。
有很多时间序列数据库是基于 Cassandra 的， KairosDB 是其中比较早的一个。 InfluxDB 是专用于时间序列的数据库。
另外还有十几种时间序列数据库，都是基于Cassandra，见https://xephonhq.github.io/awesome-time-series-database/?language=All&backend=Cassandra

一个简单的时间序列数据结构

CREATE TABLE IF NOT EXISTS naive.metrics (

metric_name text, metric_timestamp timestamp, value int,

PRIMARY KEY (metric_name, metric_timestamp))

INSERT INTO naive.metrics (metric_name, metric_timestamp, value) VALUES (cpu, 2017/03/17:13:24:00:20, 10.2)

INSERT INTO naive.metrics (metric_name, metric_timestamp, value) VALUES (mem, 2017/03/17:13:24:00:20, 80.3)

上图显示了使用 Cassandra 存储时间序列数据时 naive 的表结构， Cluster Key 存储时间戳，列的值存储实际的数值。它 naive 之处在于序列和 Cassandra 的物理行是一一对应的。当单一序列的数据点超过 Cassandra 的限制(20亿)时就会崩溃。
一个更加成熟的表结构是把一个时间序列按时间范围分区，(KairosDB 按照 3 周来划分，但是可以根据数据量进行不定长的划分)。为了存储分区的信息，需要一张额外的表。同时在 naive 里序列的名称只是一个简单的字符串，如果需要按照多种条件进行筛选的话，需要存储更多的键值对，并且对于这些键值对需要建立索引以提高查询速度。

更复杂的例子：

一个双分区列的例子，("status_update_username", "status_update_id")是联合分区列，observed_at是簇分区列，也是时间序列，类型为timeuuid

CREATE TABLE "status_update_views" (

"status_update_username" text,

"status_update_id" timeuuid,

"observed_at" timeuuid,

"client_type" text,

PRIMARY KEY (

("status_update_username", "status_update_id"),

"observed_at"

)

);

-- 插入数据

INSERT INTO "status_update_views" (

"status_update_username", "status_update_id",

"observed_at", "client_type"

) VALUES (

'alice', 76e7a4d0-e796-11e3-90ce-5f98e903bf02,

85a53d10-4cc3-11e4-a7ff-5f98e903bf02,

'web'

);

-- 查询

SELECT "observed_at", "client_type"

FROM "status_update_views"

WHERE "status_update_username" = 'alice'

AND "status_update_id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02

AND "observed_at" >= MINTIMEUUID('2014-10-05 00:00:00+0000')

AND "observed_at" < MINTIMEUUID('2014-10-06 00:00:00+0000');

-- 查询计数

SELECT COUNT(1)

FROM "status_update_views"

WHERE "status_update_username" = 'alice'

AND "status_update_id" = 76e7a4d0-e796-11e3-90ce-5f98e903bf02

AND "observed_at" >= MINTIMEUUID('2014-10-05 00:00:00+0000')

AND "observed_at" < MINTIMEUUID('2014-10-06 00:00:00+0000');

计数表counter

有一些计数类型的应用，比如某个页面被点击了多少次，或9月的每一天，状态更新了多少次。一般地说，我们希望将每日总体视图计数存储在一个结构中，该结构允许我们在给定的时间范围内轻松检索计数。我们不需要存储关于每个视图事件的离散信息；只需知道每天发生了多少视图就足够了。Cassandra非常擅长做这个。

我个人认为这种高性能、低存储空间的计数应用交给Redis会更好，Cassandra有比较多的局限（http://rockthecode.io/blog/highly-available-counters-using-cassandra/），Cassandra还是做它擅长的列存储、时间序列就好了。

-- 注意，counter类型

-- year是分区列，date为簇列

CREATE TABLE "daily_status_update_views" (

"year" int,

"date" timestamp,

"total_views" counter,

"web_views" counter,

"mobile_views" counter,

"api_views" counter,

PRIMARY KEY (("year"), "date")

);

SELECT "date", "total_views"

FROM "daily_status_update_views"

WHERE "year" = 2014

AND "date" >= '2014-09-01'

AND "date" < '2014-09-30';

UPDATE "daily_status_update_views"

SET "total_views" = "total_views" + 1,

"web_views" = "web_views" + 1

WHERE "year" = 2014

AND "date" = '2014-10-05 00:00:00+0000';

SELECT * FROM "daily_status_update_views";

-- 在尝试添加的时候会报错，原因是counter表只允许update，不准insert

-- InvalidRequest: Error from server: code=2200 [Invalid query] message="INSERT statements are not allowed on counter tables, use UPDATE instead"

INSERT INTO "daily_status_update_views"

("year", "date", "total_views")

VALUES (2014, '2014-02-01 00:00:00+0000', 500);

-- 正确的姿势

UPDATE "daily_status_update_views"

SET "total_views" = "total_views" + 500

WHERE "year" = 2014

AND "date" = '2014-02-01 00:00:00+0000';

DELETE FROM "daily_status_update_views"

WHERE "year" = 2014

AND "date" = '2014-02-01 00:00:00+0000';

UPDATE "daily_status_update_views"

SET "total_views" = "total_views" + 100

WHERE "year" = 2014

AND "date" = '2014-02-01 00:00:00+0000';

-- 在尝试修改表定义的时候会报错，只能增加counter类型的列

-- ConfigurationException: Cannot add a non counter column (last_view_time) in a counter column family

ALTER TABLE "daily_status_update_views"

ADD "last_view_time" timestamp;

用户定义函数

比较简单，不多说了。感觉应用的地方不多。

CREATE OR REPLACE FUNCTION selectCity(location text)

CALLED ON NULL INPUT

RETURNS text

LANGUAGE java

AS '

if (location == null)

return null;

else

return location.split(",")[0];

';

SELECT username, selectCity(location) FROM "users";

CREATE OR REPLACE FUNCTION selectCity(location text)

RETURNS NULL ON NULL INPUT

RETURNS text

LANGUAGE java

AS '

return location.split(",")[0];

';

INSERT INTO "status_update_views" ("status_update_username", "status_update_id", "observed_at", "client_type") VALUES ('alice', 76e7a4d0-e796-11e3-90ce-5f98e903bf02, NOW(), 'web');

INSERT INTO "status_update_views" ("status_update_username", "status_update_id", "observed_at", "client_type") VALUES ('alice', 76e7a4d0-e796-11e3-90ce-5f98e903bf02, NOW(), 'web');

INSERT INTO "status_update_views" ("status_update_username", "status_update_id", "observed_at", "client_type") VALUES ('alice', 76e7a4d0-e796-11e3-90ce-5f98e903bf02, NOW(), 'mobile');

INSERT INTO "status_update_views" ("status_update_username", "status_update_id", "observed_at", "client_type") VALUES ('alice', 76e7a4d0-e796-11e3-90ce-5f98e903bf02, NOW(), 'mobile');

INSERT INTO "status_update_views" ("status_update_username", "status_update_id", "observed_at", "client_type") VALUES ('alice', 76e7a4d0-e796-11e3-90ce-5f98e903bf02, NOW(), 'api');

CREATE OR REPLACE FUNCTION state_group_and_count (state map<text, int>, client_type text)

CALLED ON NULL INPUT

RETURNS map<text, int>

LANGUAGE java AS '

Integer count = (Integer) state.get(client_type);

if (count == null)

count = 1;

else

count++;

state.put(client_type, count);

return state;

';

CREATE OR REPLACE AGGREGATE group_and_count (text)

SFUNC state_group_and_count

STYPE map<text, int>

INITCOND {};

SELECT status_update_username, status_update_id, group_and_count(client_type)

FROM status_update_views

WHERE status_update_username='alice' AND status_update_id=76e7a4d0-e796-11e3-90ce-5f98e903bf02;

SELECT status_update_username, status_update_id, group_and_count(client_type)

FROM status_update_views

WHERE status_update_username='alice' AND status_update_id=76e7a4d0-e796-11e3-90ce-5f98e903bf02

AND "observed_at" >= MINTIMEUUID('2016-12-21 00:00:00+0000')

AND "observed_at" < MINTIMEUUID('2016-12-22 00:00:00+0000');

Cassandra开发入门文档第四部分（集合类型、元组类型、时间序列、计数列）的更多相关文章

Cassandra开发入门文档第一部分
Cassandra的特点横向可扩展性: Cassandra部署具有几乎无限的存储和处理数据的能力.当需要额外的容量时,可以简单地将更多的机器添加到集群中.当新机器加入集群时,Cassandra需要对 ...
Cassandra开发入门文档第五部分（使用场景）
正确建模开发人员在构建Cassandra数据库时犯的另一个主要错误是分区键的选择不佳.cassandra是分布式的.这意味着您需要有一种方法来跨节点分布数据.Cassandra通过散列每个表的主键( ...
Cassandra开发入门文档第三部分（非规范化关系结构、批处理）
非规范化关系结构第二部分我们讲了复合主键,这可以灵活的解决主从关系,也即是一对多关系,那么多对多关系呢?多对多关系的数据模型应该回答两个问题: 我跟着谁? 谁跟着我? -- 建表,我们发现这里有个不 ...
Cassandra开发入门文档第二部分（timeuuid类型、复合主键、静态字段详解）
timeuuid类型 timeuuid具有唯一索引和日期时间的综合特性,可以与日期和时间函数联合使用,常用的关联函数: dateOf() now() minTimeuuid() and maxTime ...
Solr开发参考文档(转)
Solr开发文档 Solr 是一种可供企业使用的.基于 Lucene 的搜索服务器,它支持层面搜索.命中醒目显示和多种输出格式.在这篇文章中,将介绍 Solr 并展示如何轻松地将其表现优异的全文本搜索 ...
Apache BeanUtils 1.9.2 官方入门文档
为什么需要Apache BeanUtils? Apache BeanUtils 是 Apache开源软件组织下面的一个项目,被广泛使用于Spring.Struts.Hibernate等框架,有数千个j ...
【简明翻译】Hibernate 5.4 Getting Started Guide 官方入门文档
前言最近的精力主要集中在Hibernate上,在意识到Hibernate 5 的中文资料并不多的时候,我不得不把目光转向Hibernate的官方doc,学习之余简要翻一下入门文档. 原文地址:htt ...
Duilib入门文档提供下载
版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[-] Duilib入门文档基本框架编写界面xml 响应事件贴图描述类html文本描述动态换肤 Dll插件资源打包 Duil ...
2022最新IntellJ IDEA诺依开发部署文档
前景提示若伊是国内一款很好的开源项目,非常的便于学习,而且它是开源免费的,但是,它的开发部署文档实在是没法按照那个文档,快速高效的在本地搭建一套可以运行的项目,对于学习开发和使用实在是一大难题,为此 ...

随机推荐

Java并发编程-JUC-CountDownLatch 倒计数门闩器-等待多线程完成再放行 -一次性使用
如题 (总结要点) CountDownLatch 倒计数门闩器, 让1-n-1个线程等待其他多线程完成工作. (Excel的多个Sheet的解析,最终等待解析完毕后;要实现主线程等待所有线程完成she ...
项目Beta冲刺（7/7）（追光的人）(2019.5.29)
所属课程软件工程1916 作业要求 Beta冲刺博客汇总团队名称追光的人作业目标描述Beta冲刺每日的scrum和PM报告两部分队员学号队员博客 221600219 小墨 https:/ ...
【大数据】HBase环境
参考资料:https://www.cnblogs.com/frankdeng/p/9310191.html 主节点挂了 HBase服务访问:http://192.168.1.180:16010/mas ...
try catch 小结， node的回调callback里不能捕获异常，不能被v8优化（现在能了），
<深入浅出Nodejs>时,在第四章 - 异步编程中作者朴灵曾提到,异步编程的难点之一是异常处理,书中描述"尝试对异步方法进行try/catch操作只能捕获当次事件循环内的异常, ...
Windows GUI自动化测试技术的比较和展望
https://www.cnblogs.com/yufun/archive/2009/10/10/1580132.html [这里的自动化测试专指GUI自动化(不包含Web)] 以前写过一篇跟UI自动 ...
Vant 实现上拉加载更多
Vant 的List 组件默认支持瀑布流滚动加载.官方的示例是用定时器模拟的数据.我们在项目实战中,肯定是结合ajax请求处理的.那么我们该如何实现这个效果呢? Vant 的 List组件使用方 ...
常用方法 DataTable转换为Html
点击单元格可以输出行和列,这个功能可以在一些特殊的地方用 public static string GetHtmlString(DataTable dt) { StringBuilder sb = ...
JAVA基础--MySQL（二）
数据库约束 1.基础限制 ① 单一表内字节量总和不能超过65535,null 占用一个字节空间 ② varchar存储255 以内字节占用一个字节表示长度,255以上自己则占用两个字节表示长度 ③ ...
ARC098F Donation
传送门 Atcoder Solution 首先是几个引理: 重新定义权值\(val_i=max(a_i-b_i,0)\),那么通过这个点必须需要\(val_i+b_i\)的钱. 多次经过一个点一定是在 ...
经典算法（三）单链表反转 & 是否相交/成环 & 求交点等
参考文章: 判断链表是否相交:http://treemanfm.iteye.com/blog/2044196 一.单链表反转链表节点 public class Node { private int ...

Cassandra开发入门文档第四部分（集合类型、元组类型、时间序列、计数列）

Set