通过Elasticsearch使用的你的数据

Elasticsearch 系列导航

持续更新中

正文

假设你已经有一份数据保存在Elasticsearch里，类似于下面这种schema,如果没有参考导入测试数据

{

"account_number": 0,

"balance": 16623,

"firstname": "Bradshaw",

"lastname": "Mckenzie",

"age": 29,

"gender": "F",

"address": "244 Columbus Place",

"employer": "Euron",

"email": "bradshawmckenzie@euron.com",

"city": "Hobucken",

"state": "CO"

}

那么我们接下来就可以过滤，搜索，聚合来获取到我们想要的数据。

Elasticsearch提供了一套Json风格的领域特定语言来帮助查询，被称为Query DSL.

搜索通过在URL结尾加_search来指定，具体查询提交通过Request Body来指定，

比如下面的Request Body：

query：用来指定查询条件

from：从第几个开始取

size：取多少条记录，默认10条，比如这个例子有13条记录满足条件，但是只返回1条记录

sort：用来指定排序规则

OK，通过刚才的实验，我们对查询有了一个基本的认识，下面让我们来继续认识更加有趣的查询：

减少返回字段的个数（默认情况下是返回一个文档的所有字段信息）

1

2

3

4

{

"query": { "match_all": {} },

"_source": ["account_number", "balance"]

}
返回account_number等于20的account

1

2

3

{

"query": { "match": { "account_number": 20 } }

}

match是一个模糊匹配，但是由于account_number是long类型，所以这里当做精确匹配来过滤
返回address字段中包含mill的account

1

2

3

{

"query": { "match": { "address": "mill" } }

}

由于address是text类型，所以这里说的是包含mill而不是等于mill.
返回address字段中包含"mill" 或 "lane"的account

1

2

3

{

"query": { "match": { "address": "mill lane" } }

}

由于address是text类型，而且"mill lane"这里在查询的时候被当作两个词来分别进行查询
返回address字段中包含"mill lane"的account
这里使用match_phrase查询类型，把"mill lane"当作一个整体来查询

1

2

3

{

"query": { "match_phrase": { "address": "mill lane" } }

}

返回address字段中同时包含"mill" 和 "lane"的account

{

"query": {

"bool": {

"must": [

{ "match": { "address": "mill" } },

{ "match": { "address": "lane" } }

]

}

这里使用了bool查询语句，它允许我们组合多个小的查询一起来完成稍微复杂的查询，bool must 要求所有子查询返回true,所有子查询之间可以理解为一个and的操作。

返回address字段中包含"mill" 或 "lane"的account

bool should 要求子查询中的任一个满足条件，可以理解为或的关系

{

"query": {

"bool": {

"should": [

{ "match": { "address": "mill" } },

{ "match": { "address": "lane" } }

]

}

返回address字段中既不包含"mill" 也不包含 "lane"的account

bool must_not子句之间是或的关系

{

"query": {

"bool": {

"must_not": [

{ "match": { "address": "mill" } },

{ "match": { "address": "lane" } }

]

}

返回年龄等于40 且不住在ID地区的account

{ "query": {

"bool": {

"must": [

{ "match": { "age": "40" } }

],

"must_not": [

{ "match": { "state": "ID" } }

]

}

我们可以同时联合must, should, and must_not子句在一个bool语句内，

也可以继续在bool子句下面继续嵌套使用bool子句来完成更加复杂的查询需求。

Filter 过滤

在返回的结果中有一个_score字段，score是一个数值，表示查询条件和这个文档的相关度，分数越高，说明某个文档的相关度越高，

反之，相关度越低，但是查询并不总是产生分数，尤其当你使用过滤子句来过滤文档的时候，Elasticsearch会自动检测这些场景，

自动优化查询，让他不要去计算无用的分数，之前我们使用的bool查询也支持filter子句，

例如我们想获取账户余额大于等于20000 小于等于30000的账户信息

{

"query": {

"bool": {

"must": { "match_all": {} },

"filter": {

"range": {

"balance": {

"gte": 20000,

"lte": 30000

}

上面的这个例子其实挺好理解的，所有在这个range范围内的文档都具有相等的匹配度，

没有哪一个文档比其他的文档匹配度更高，要么在这个范围内，要么不在，所以相关度是相等的，

就没有必要再去计算这个score.

Aggregations聚合

聚合允许你给你的数据分组并获取他们的统计信息，你可以把它和SQL里面的goup by 以及SQL的聚合函数联系起来，

在Elasticsearch，你可以在一个响应里同时返回聚合信息和结果明细，

比如我们使用state来给所有的accounts分组，默认返回前10条聚合记录，顺序按照组内文档数量的倒序排列

{

"size": 0,

"aggs": {

"group_by_state": {

"terms": {

"field": "state.keyword"

}

你可以结合下面的SQL语句更好理解上面的语句

SELECT state, COUNT(*) FROM bank GROUP BY state ORDER BY COUNT(*) DESC
部分返回结果 如下显示：

{

"took": 29,

"timed_out": false,

"_shards": {

"total": 5,

"successful": 5,

"failed": 0

},

"hits" : {

"total" : 1000,

"max_score" : 0.0,

"hits" : [ ]

},

"aggregations" : {

"group_by_state" : {

"doc_count_error_upper_bound": 20,

"sum_other_doc_count": 770,

"buckets" : [ {

"key" : "ID",

"doc_count" : 27

}, {

"key" : "TX",

"doc_count" : 27

}, {

"key" : "AL",

"doc_count" : 25

}, {

"key" : "MD",

"doc_count" : 25

}, {

"key" : "TN",

"doc_count" : 23

}, {

"key" : "MA",

"doc_count" : 21

}, {

"key" : "NC",

"doc_count" : 21

}, {

"key" : "ND",

"doc_count" : 21

}, {

"key" : "ME",

"doc_count" : 20

}, {

"key" : "MO",

"doc_count" : 20

} ]

}

你可以观察到，上面的聚合我们设置size=0,不去显示符合条件的原始记录，

因为我们这次仅仅需要聚合的结果信息，如果你也需要原始记录信息，那么你可以重新指定size的大小

下面这个例子我们来求余额的平均值

{

"size": 0,

"aggs": {

"group_by_state": {

"terms": {

"field": "state.keyword"

},

"aggs": {

"average_balance": {

"avg": {

"field": "balance"

}

返回如下的结果，可以看到这里我们在group_by_state里面嵌套使用了average_balance，这是一种比较通用的做法，

你可以在任意聚合内嵌套任意聚合来获取需要的统计信息。

下面这个例子演示根据年龄组来分组，然后根据性别来分组最后求账户余额的平均值

{

"size": 0,

"aggs": {

"group_by_age": {

"range": {

"field": "age",

"ranges": [

{

"from": 20,

"to": 30

},

{

"from": 30,

"to": 40

},

{

"from": 40,

"to": 50

}

]

},

"aggs": {

"group_by_gender": {

"terms": {

"field": "gender.keyword"

},

"aggs": {

"average_balance": {

"avg": {

"field": "balance"

}

下面是年龄组分组计算聚合的部分返回结果：

分类: NoSql

ES数据的更多相关文章

es 数据导出到 MySQL
暂时没有找到直接导出到 mysql 数据库的工具或者项目目前实现思路: 使用 elasticdump 工具实现从 es 数据导出到 json 文件 ,然后使用脚本程序操作改 js ...
es数据增删改查
设置最大查询条数 curl -XPUT 'http://10.121.8.5:9200/zdl_mx_shzt_ztdf/_settings' -d'{"index":{" ...
ES数据架构与关系数据库Mysql
ES数据架构的主要概念(与关系数据库Mysql对比) MySQL ElasticSearch Database Index Table Type Row Document Column Field S ...
ES数据导入导出
ES数据导入导出 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 ...
MySQL 到 ES 数据实时同步技术架构
MySQL 到 ES 数据实时同步技术架构我们已经讨论了数据去规范化的几种实现方式.MySQL 到 ES 数据同步本质上是数据去规范化多种实现方式中的一种,即通过"数据迁移同步" ...
你的ES数据备份了吗?
前言: 无论使用哪种存储软件,定期的备份数据都是重中之重,在使用ElasticSearch的时候,随着数据日益积累,存放es数据的磁盘空间也捉襟见肘, 此时对于业务功能使用不到的索引数据,又不能直接删 ...
ES数据-MySql处理Date类型的数据导入处理
用ES的小伙伴们,相信大家都遇到过Mapping处理Date类型的数据头疼问题吧. 不用头疼了,我来给你提供一种解决方案: 1.Maping定义为: { "mappings": ...
【原创】大数据基础之ElasticSearch（4）es数据导入过程
1 准备analyzer 内置analyzer 参考:https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis- ...
elasticsearch-dump 迁移es数据（elasticdump）
elasticsearch 部分查询语句 # 获取集群的节点列表: curl 'localhost:9200/_cat/nodes?v' # 列出所有索引: curl 'localhost:9200/ ...
Spark sql读取数据库和ES数据进行处理代码
读取数据库数据和ElasticSearch数据进行连接处理 import java.util.HashMap; import java.util.List; import java.util.Map; ...

随机推荐

Something-Summary
1.Combinatorial Mathematics 1.1 Bell Number: \(B_n\)表示元素个数为n的集合划分成若干个不相交集合的方案数. \(B_{n + 1} = \sum_{ ...
GCJ 2008 Round 1A Minimum Scalar Product
https://code.google.com/codejam/contest/32016/dashboard 题目大意: GCJ(google code jam)上的水题.下周二有比赛,来熟悉熟悉. ...
10.13 android输入系统_多点触摸驱动理论与框架
1.多点触摸驱动理论驱动程序仅上报多个触点的位置就可以,是放大还是缩小由应用程序控制对于多点触摸驱动在linux系统中有个输入子系统,其已经实现了open/read/write等接口我们只需要实 ...
keil出错总结
错误一: ..\APP\app.c(51): error: #268: declaration may not appear after executable statement in block ...
Centos配置java环境
安装jdk JDK 是开发Java程序必须安装的软件,我们查看一下 yum 源里面的 JDK:yum list java* 选择适合本机的JDK,并安装:yum install java-1.7.0- ...
[Angular] Bind async requests in your Angular template with the async pipe and the "as" keyword
Angular allows us to conveniently use the async pipe to automatically register to RxJS observables a ...
[Node] Use babel-preset-env with Native Node Features and Also Use Babel Plugins
In this lesson we'll show how to setup a .babelrc file with presets and plugins. Then create npm scr ...
编译pano13的一些注意事项
作者:朱金灿来源:error C2037: "jmpbuf"的左侧部分指定未定义的结构/联合"png_struct_def"e:\src\Test\libpa ...
使用Array和[]创建数组的区别
原文简书原文:https://www.jianshu.com/p/57a337d20aea 大纲前言对使用Array和[]创建数组的区别的解释个人理解前言 JS定义数组变量时,在不需要给定数 ...
CSS Sprite的相关概念
原文简书原文:https://www.jianshu.com/p/8ae3be23a642 大纲 1.什么是CSS Sprite 2.CSS Sprite的优点 3.CSS Sprite的缺点 4. ...

ES数据

通过Elasticsearch使用的你的数据

ES数据的更多相关文章

随机推荐

热门专题