【ES】match_phrase与regexp

刚开始接触es，由于弄不清楚match_phrase和regexp导致很多查询结果与预想的不同。在这整理一下。

regexp：针对的是单个词项

match_phrase：针对的是多个词项的相对位置

它们的查询结果跟分析器分词的方式有很大关系。

比如，我有两个字符串"HELLO-world" 和 "hello.WORLD"，字段名称是title。

针对"HELLO-world"，看下面两个语句。第二个是可以匹配的，第一个不可以。

{ "regexp": { "title": "hello-w.*" }}

{ "match_phrase": { "title": "hello world" }}

分析一下，可以看到，HELLO-world被分为了两个单词，hello和world。

-GET _analyze

{

    "field": "title",

    "text": "HELLO-world"

}

---------------------------

{

  "tokens" : [

    {

      "token" : "hello",

      "start_offset" : ,

      "end_offset" : ,

      "type" : "<ALPHANUM>",

      "position" :

    },

    {

      "token" : "world",

      "start_offset" : ,

      "end_offset" : ,

      "type" : "<ALPHANUM>",

      "position" :

    }

  ]

}

首先，es是没有大写的，所有的字符都被转换成了小写。其次，"-"字符丢失了。

regexp是针对单个词项的，无论是hello还是world，都不符合正则条件，故没有匹配。

match_phrase是针对多个词项的。首先match_phrase的"hello world"被分为了hello和world两个单词，然后这两个单词在title的分词中都可以找到，并且相对位置满足条件，故语句可以匹配。

再看 "hello.WORLD"

{ "regexp": { "title": "hello\\.w.*" }}

{ "match_phrase": { "title": "hello world" }}

结果是，第一个可以匹配，而第二个不能。

原因看分词结果：

-GET_analyze

{

    "field": "title",

    "text": "hello.WORLD"

}

-------------------------------

{

  "tokens" : [

    {

      "token" : "hello.world",

      "start_offset" : ,

      "end_offset" : ,

      "type" : "<ALPHANUM>",

      "position" :

    }

  ]

}

坑爹的情况出现了，"."并不会被切分，整个"hello.world"被视作了一个词项。

match_phrase在词项中查找hello和world都查找不到，故不会匹配

regexp则能找到一个满足正则表达式的词项，故可以匹配。

ES的分词处理非常重要，很大的影响了查询结果！

【ES】match_phrase与regexp的更多相关文章

hot load那点事
热加载,最初接触的时候是使用create-react-app的时候,创建一个项目出来,修改一点代码,页面自动刷新了,贫道当时就感叹,这是造福开发者的事情. 再后来编写静态页面的时候使用 VS Code ...
ES match match_phrase term willcard的查询原理
比如:要求实现SQL中like “%xxxx%”的匹配效果. wildcard通配这种效果在ES中最匹配的做法是用wildcard query通配,这种情况不会对query分词,而是直接遍历倒排索引 ...
ES查询－match VS match_phrase
我们以一个查询的示例开始,我们在student这个type中存储了一些学生的基本信息,我们分别使用match和match_phrase进行查询. 首先,使用match进行检索,关键字是“He is”: ...
es 基于match_phrase的模糊匹配原理及使用
[版权声明]:本文章由danvid发布于http://danvid.cnblogs.com/,如需转载或部分使用请注明出处在业务中经常会遇到类似数据库的"like"的模糊匹配需求 ...
ES中文分词器之精确短语匹配（解决了match_phrase匹配不全的问题）
分词器选择调研了几种分词器,例如IK分词器,ansj分词器,mmseg分词器,发现IK的分词效果最好.举个例子: 词:<<是的>><span>哈<\span ...
es match、match_phrase、query_string和term的区别
(一)text字段和keyword字段的区别以下给出一个例子: 首先建立一个索引和类型,引入一个keywork的字段: PUT my_index { "mappings": { ...
ES 应用
1. ES的不同之处: 全文检索.处理同义词.通过相关性给文档评分, 从同样的数据中生成分析与聚合数据, 实时大型批处理. 安装es与kibana 1.下载:https://www.elastic ...
es中级部分知识点总结
--------------------------------------------------------------- 搜索开始-------------------------------- ...
ES之二：Elasticsearch原理
Elasticsearch是最近两年异军突起的一个兼有搜索引擎和NoSQL数据库功能的开源系统,基于Java/Lucene构建.最近研究了一下,感觉 Elasticsearch 的架构以及其开源的生态 ...

随机推荐

PHP自动加载(__autoload和spl_autoload_register)
一:什么是自动加载我们在new出一个class的时候,不需要手动去require或include来导入这个class文件,而是程序自动帮你导入这个文件不需要手动的require那么多class文件了 ...
类的初始化过程（难点）--------java基础总结
前言:看到这么好的东西,忍不住又写到了博客上面 Student s = new Student();在内存中究竟做了哪些事情呢? ①加载student.class文件进内存. ②为栈内存s开辟空间. ...
JS解析url
window.location.href 整个url字符串 window.location.protocol url的协议部分 window.location.host url的主机部分 window ...
SpringBoot 核心配置
1. 入口类和 @SpringBootApplication Spring Boot的项目一般都会有*Application的入口类,入口类中会有main方法,这是一个标准的Java应用程序的入口方法 ...
xvfb-run: error: xauth command not found 解决方式
解决方式转于:http://tokanao.com/blog/2016/07/13/blog.html 错误提示 array(2) { [0]=> string(27) "which: ...
Math.random()和UUID.randomUUID().toString()性能对比【纯原】
Math.random()和UUID.randomUUID().toString()性能对比不言而喻,因为Math.random()不需要保证唯一性,所做的操作远比UUID消耗更小的性能, 在部分要 ...
20155319 2016-2017-2 《Java程序设计》第八周学习总结
20155319 2016-2017-2 <Java程序设计>第八周学习总结教材学习内容总结 NIO与NIO2 - NIO使用频道(channel)来衔接数据节点 - read()将Re ...
Linux - 系统资源
查看剩余内存 free -m #-/+ buffers/cache: #6458M为真实使用内存 1649M为真实剩余内存(剩余内存+缓存+缓冲器) #linux会利用所有的剩余内存作为缓存,所以要保 ...
CodeForces Contest #1137: Round #545 (Div. 1)
比赛传送门:CF #1137. 比赛记录:点我. 每次都自闭的 div1 啊,什么时候才能上 IM 呢. [A]Skyscrapers 题意简述: 有一个 \(n\times m\) 的矩阵 \(a_ ...
JavaScript内置对象——Math对象
这几天在刷leetcode的时候用到了一些Math对象的知识,故作一下总结~ JavaScript中的Math对象也是一个常见的内置对象,然而与String等其它常见对象不同,Math对象没有构造函数 ...

【ES】match_phrase与regexp

【ES】match_phrase与regexp的更多相关文章

随机推荐

热门专题