Elasticsearch 5.x 关于term query和match query的认识

http://blog.csdn.net/yangwenbo214/article/details/54142786

一、基本情况

前言：term query和match query牵扯的东西比较多，例如分词器、mapping、倒排索引等。我结合官方文档中的一个实例，谈谈自己对此处的理解

string类型在es5.*分为text和keyword。text是要被分词的，整个字符串根据一定规则分解成一个个小写的term，keyword类似es2.3中not_analyzed的情况。

string数据put到elasticsearch中，默认是text。

NOTE:默认分词器为standard analyzer。”Quick Brown Fox!”会被分解成[quick,brown,fox]写入倒排索引

term query会去倒排索引中寻找确切的term，它并不知道分词器的存在。这种查询适合keyword 、numeric、date

match query知道分词器的存在。并且理解是如何被分词的

总的来说有如下：

- term query 查询的是倒排索引中确切的term

- match query 会对filed进行分词操作，然后在查询

二、测试（1）

准备数据：

POST /termtest/termtype/1

{

  "content":"Name"

}

POST /termtest/termtype/2

{

  "content":"name city"

}

查看数据是否导入

GET /termtest/_search

{

  "query":

  {

    "match_all": {}

  }

}

结果：

{

  "took": 1,

  "timed_out": false,

  "_shards": {

    "total": 5,

    "successful": 5,

    "failed": 0

  },

  "hits": {

    "total": 2,

    "max_score": 1,

    "hits": [

      {

        "_index": "termtest",

        "_type": "termtype",

        "_id": "",

        "_score": 1,

        "_source": {

          "content": "name city"

        }

      },

      {

        "_index": "termtest",

        "_type": "termtype",

        "_id": "",

        "_score": 1,

        "_source": {

          "content": "Name"

        }

      }

    ]

  }

}

如上说明，数据已经被导入。该处字符串类型是text，也就是默认被分词了

做如下查询：

POST /termtest/_search

{

  "query":{

    "term":{

      "content":"Name"

    }

  }

}

结果

{

  "took": 1,

  "timed_out": false,

  "_shards": {

    "total": 5,

    "successful": 5,

    "failed": 0

  },

  "hits": {

    "total": 0,

    "max_score": null,

    "hits": []

  }

}

分析结果：因为是默认被standard analyzer分词器分词，大写字母全部转为了小写字母，并存入了倒排索引以供搜索。term是确切查询，

必须要匹配到大写的Name。所以返回结果为空

POST /termtest/_search

{

  "query":{

    "match":{

      "content":"Name"

    }

  }

}

结果

{

  "took": 2,

  "timed_out": false,

  "_shards": {

    "total": 5,

    "successful": 5,

    "failed": 0

  },

  "hits": {

    "total": 2,

    "max_score": 0.2876821,

    "hits": [

      {

        "_index": "termtest",

        "_type": "termtype",

        "_id": "",

        "_score": 0.2876821,

        "_source": {

          "content": "Name"

        }

      },

      {

        "_index": "termtest",

        "_type": "termtype",

        "_id": "",

        "_score": 0.25811607,

        "_source": {

          "content": "name city"

        }

      }

    ]

  }

}



分析结果: 原因（1）：默认被standard analyzer分词器分词，大写字母全部转为了小写字母，并存入了倒排索引以供搜索，

原因（2）：match query先对filed进行分词，分词为”name”,再去匹配倒排索引中的term

三、测试（2）

下面是官网实例官网实例

1. 导入数据

PUT my_index

{

  "mappings": {

    "my_type": {

      "properties": {

        "full_text": {

          "type":  "text"

        },

        "exact_value": {

          "type":  "keyword"

        }

      }

    }

  }

}

PUT my_index/my_type/1

{

  "full_text":   "Quick Foxes!",

  "exact_value": "Quick Foxes!"

}



先指定类型，再导入数据

full_text: 指定类型为text，是会被分词

exact_value: 指定类型为keyword，不会被分词

full_text： 会被standard analyzer分词为如下terms [quick,foxes],存入倒排索引

exact_value： 只有[Quick Foxes!]这一个term会被存入倒排索引

做如下查询

GET my_index/my_type/_search

{

  "query": {

    "term": {

      "exact_value": "Quick Foxes!"

    }

  }

}

结果：

{

  "took": 1,

  "timed_out": false,

  "_shards": {

    "total": 5,

    "successful": 5,

    "failed": 0

  },

  "hits": {

    "total": 1,

    "max_score": 0.2876821,

    "hits": [

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "",

        "_score": 0.2876821,

        "_source": {

          "full_text": "Quick Foxes!",

          "exact_value": "Quick Foxes!"

        }

      }

    ]

  }

}

exact_value包含了确切的Quick Foxes!，因此被查询到

GET my_index/my_type/_search

{

  "query": {

    "term": {

      "full_text": "Quick Foxes!"

    }

  }

}

结果：

{

  "took": 4,

  "timed_out": false,

  "_shards": {

    "total": 5,

    "successful": 5,

    "failed": 0

  },

  "hits": {

    "total": 0,

    "max_score": null,

    "hits": []

  }

}

full_text被分词了，倒排索引中只有quick和foxes。没有Quick Foxes!

GET my_index/my_type/_search

{

  "query": {

    "term": {

      "full_text": "foxes"

    }

  }

}

结果：

{

  "took": 2,

  "timed_out": false,

  "_shards": {

    "total": 5,

    "successful": 5,

    "failed": 0

  },

  "hits": {

    "total": 1,

    "max_score": 0.25811607,

    "hits": [

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "",

        "_score": 0.25811607,

        "_source": {

          "full_text": "Quick Foxes!",

          "exact_value": "Quick Foxes!"

        }

      }

    ]

  }

}

full_text被分词，倒排索引中只有quick和foxes，因此查询foxes能成功

GET my_index/my_type/_search

{

  "query": {

    "match": {

      "full_text": "Quick Foxes!"

    }

  }

}

结果：

{

  "took": 3,

  "timed_out": false,

  "_shards": {

    "total": 5,

    "successful": 5,

    "failed": 0

  },

  "hits": {

    "total": 1,

    "max_score": 0.51623213,

    "hits": [

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "",

        "_score": 0.51623213,

        "_source": {

          "full_text": "Quick Foxes!",

          "exact_value": "Quick Foxes!"

        }

      }

    ]

  }

}

match query会先对自己的query string进行分词。也就是”Quick Foxes!”先分词为quick和foxes。然后在去倒排索引中查询，此处full_text是text类型，被分词为quick和foxes

因此能匹配上。

参考文献:http://blog.csdn.net/yangwenbo214/article/details/54142786

Elasticsearch 5.x 关于term query和match query的认识的更多相关文章

Elasticsearch 5.0 中term 查询和match 查询的认识
Elasticsearch 5.0 关于term query和match query的认识一.基本情况前言:term query和match query牵扯的东西比较多,例如分词器.mapping ...
Elasticsearch Query DSL 整理总结（二）—— 要搞懂 Match Query，看这篇就够了
目录引言构建示例 match operator 参数 analyzer lenient 参数 Fuzziness fuzzniess 参数什么是模糊搜索? Levenshtein Edit Di ...
Elasticsearch Query DSL 整理总结（四）—— Multi Match Query
目录引言概要 fields 字段通配符提升字段权重 multi_match查询的类型 best_fields 类型 dis_max 分离最大化查询 best_fields 维权使者 tie_b ...
Elasticsearch Query DSL 整理总结（三）—— Match Phrase Query 和 Match Phrase Prefix Query
目录引言 Match Phase Query slop 参数 analyzer 参数 zero terms query Match Phrase 前缀查询 max_expansions 小结参考文 ...
Elasticsearch.Net 异常:[match] query doesn't support multiple fields, found [field] and [query]
用Elasticsearch.Net检索数据,报异常: )); ElasticLowLevelClient client = new ElasticLowLevelClient(settings); ...
elasticsearch 中的Multi Match Query
在Elasticsearch全文检索中,我们用的比较多的就是Multi Match Query,其支持对多个字段进行匹配.Elasticsearch支持5种类型的Multi Match,我们一起来深入 ...
[Elasticsearch] 全文搜索 (一) 基础概念和match查询
全文搜索(Full Text Search) 现在我们已经讨论了搜索结构化数据的一些简单用例,是时候开始探索全文搜索了 - 如何在全文字段中搜索来找到最相关的文档. 对于全文搜索而言,最重要的两个方面 ...
Hibernate : Query.list()、Query.iterator()的区别
Query上有list()与iterator()方法,两者的差别在于list()方法在读取数据时,并不会利用到快取,而是直接再向数据库查询,而iterator()则将读取到的数据写到快取,并于读取时再 ...
query.setFirstResult(0),query.setMaxResults(4)
query.setFirstResult(0),query.setMaxResults(1);相当于MySQL中的limit 0, 1; String hql = "FROM Forum f ...

随机推荐

慎用 apt-get autoremove !
apt-get 提供了一个用于下载和安装软件包的简易命令行界面. 卸载软件包主要有这3个命令 remove – 卸载软件包 autoremove – 卸载所有自动安装且不再使用的软件包 purge – ...
Axiom3D写游戏:用Overlay实现Mesh浏览.
从网上找了些资源,大多搜Ogre,Mesh资源,然后为了方便查看各个Mesh,以及对应骨骼动画.为了实用性,考虑放在原游戏窗口里实现.最开始打算窗口新建viewport来实现,后发现这种方式的局限性, ...
Opengl绘制我们的小屋(三)纹理绘制
本准备先说光照相关实现,但是发现对那个模型实在看不下去了,于是先绘制纹理. 先看下基本纹理贴上去的显示效果.具体模型图请看上篇文章的实现,这篇只讲纹理实现. 我们常见的纹理绘制差不多如下,先写一个纹理 ...
struts2系列(二)：struts2参数传递错误、struts2的输入错误验证
一.struts2参数传递错误 1. 基本数据类型的传递最好使用包装类,原因是struts 2.1之后使用基本数据类型如果参数为空会报错2. 日期参数的传递最好定义一个区域的属性(定义locale), ...
JDBC插入数据实例
在本教程将演示如何在JDBC应用程序中向数据库的一个表中插入数据记录. 在执行以下示例之前,请确保您已经准备好以下操作: 具有数据库管理员权限,以在给定模式中数据库表中插入数据记录. 要执行以下示例, ...
Swing AWT一套新的图形界面系统
Swing 是在AWT的基础上构建的一套新的图形界面系统,它提供了AWT 所能够提供的所有功能,并且用纯粹的Java代码对AWT 的功能进行了大幅度的扩充. 例如说并不是所有的操作系统都提供了对树形控 ...
Eclipse的实用插件
Decompiler PyDev ShellEd AnyEdit SonarLint PropertiesEditor System and Desktop Search 其它实用插件等工作中用到了再 ...
u3d外部资源打包与加载的问题
被坑了一下午,调bug,u3d外部加载资源一会可以,一会不行,始终找不到问题,最后快下班的时候,重新试了一下,原来是资源打包之前的文件名,和之后的加载资源名必须一样 [MenuItem("C ...
chrome浏览器表单自动填充默认样式(背景变黄)-autofill
之所以出现这样的样式, 是因为Chrome会自动为input增加如下样式. 这个样式的优先级也比较高. 无法通过important覆盖(这就比较恶心了). 解决方案(3种): 1. 关闭自动保存账号密 ...
内存管理初始化（六）vmalloc_init 及 ioremap
是不是我错了,本想这个函数会如网上所说将进行非连续内存管理的初始化,但是对于2.6.34的ARM架构而言,该函数实际完成的业务非常少. 内存管理的初始化读到此处,我感觉原有的认识存在很大缺陷: (1) ...

Elasticsearch 5.x 关于term query和match query的认识

Elasticsearch 5.x 关于term query和match query的认识的更多相关文章

随机推荐

热门专题