课程环境


DSL 介绍

  • 这个才是实际最常用的方式,可以构建复杂的查询条件。
  • 不用一开始就想着怎样用 Java Client 端去调用 Elasticsearch 接口。DSL 会了,Client 的也只是用法问题而已。

DSL 语句的校验以及 score 计算原理

  • 对于复杂的查询,最好都先校验下,看有没有报错。
GET /product_index/product/_validate/query?explain
{
"query": {
"match": {
"product_name": "toothbrush"
}
}
}

DSL 简单用法

  • 查询所有的商品:
GET /product_index/product/_search
{
"query": {
"match_all": {}
}
}
  • 查询商品名称包含 toothbrush 的商品,同时按照价格降序排序:
GET /product_index/product/_search
{
"query": {
"match": {
"product_name": "toothbrush"
}
},
"sort": [
{
"price": "desc"
}
]
}
  • 分页查询商品:
GET /product_index/product/_search
{
"query": {
"match_all": {}
},
"from": 0, ## 从第几个商品开始查,最开始是 0
"size": 1 ## 要查几个结果
}
  • 指定查询结果字段(field)
GET /product_index/product/_search
{
"query": {
"match_all": {}
},
"_source": [
"product_name",
"price"
]
}
符号标识 代表含义
gte 大于或等于
gt 大于
lte 小于或等于
lt 小于
  • 搜索商品名称包含 toothbrush,而且售价大于 400 元,小于 700 的商品
GET /product_index/product/_search
{
"query": {
"bool": {
"must": {
"match": {
"product_name": "toothbrush"
}
},
"filter": {
"range": {
"price": {
"gt": 400,
"lt": 700
}
}
}
}
}
}
  • full-text search 全文检索,倒排索引
  • 索引中只要有任意一个匹配拆分后词就可以出现在结果中,只是匹配度越高的排越前面
  • 比如查询:PHILIPS toothbrush,会被拆分成两个单词:PHILIPS 和 toothbrush。只要索引中 product_name 中只要含有任意对应单词,都会在搜索结果中,只是如果有数据同时含有这两个单词,则排序在前面。
GET /product_index/product/_search
{
"query": {
"match": {
"product_name": "PHILIPS toothbrush"
}
}
}
  • phrase search 短语搜索
  • 索引中必须同时匹配拆分后词就可以出现在结果中
  • 比如查询:PHILIPS toothbrush,会被拆分成两个单词:PHILIPS 和 toothbrush。索引中必须有同时有这两个单词的才会在结果中。
GET /product_index/product/_search
{
"query": {
"match_phrase": {
"product_name": "PHILIPS toothbrush"
}
}
}
  • Highlight Search 高亮搜索
  • 给匹配拆分后的查询词增加高亮的 html 标签,比如这样的结果:"<em>PHILIPS</em> <em>toothbrush</em> HX6730/02"
GET /product_index/product/_search
{
"query": {
"match": {
"product_name": "PHILIPS toothbrush"
}
},
"highlight": {
"fields": {
"product_name": {}
}
}
}
  • range 用法,查询数值、时间区间:
GET /product_index/product/_search
{
"query": {
"range": {
"price": {
"gte": 30.00
}
}
}
}
  • match 用法(与 term 进行对比):
  • 查询的字段内容是进行分词处理的,只要分词的单词结果中,在数据中有满足任意的分词结果都会被查询出来
GET /product_index/product/_search
{
"query": {
"match": {
"product_name": "PHILIPS toothbrush"
}
}
}
  • match 还有一种情况,就是必须满足分词结果中所有的词,而不是像上面,任意一个就可以的。(这个常见,所以很重要
  • 看下面的 JSON 其实你也可以猜出来,其实上面的 JSON 和下面的 JSON 本质是:operator 的差别,上面是 or,下面是 and 关系。
GET /product_index/product/_search
{
"query": {
"match": {
"product_name": {
"query": "PHILIPS toothbrush",
"operator": "and"
}
}
}
}
  • match 还还有一种情况,就是必须满足分词结果中百分比的词,比如搜索词被分成这样子:java 程序员 书 推荐,这里就有 4 个词,假如要求 50% 命中其中两个词就返回,我们可以这样:
  • 当然,这种需求也可以用 must、must_not、should 匹配同一个字段进行组合来查询
GET /product_index/product/_search
{
"query": {
"match": {
"product_name": {
"query": "java 程序员 书 推荐",
"minimum_should_match": "50%"
}
}
}
}
  • multi_match 用法:
  • 查询 product_name 和 product_desc 字段中,只要有:toothbrush 关键字的就查询出来。
GET /product_index/product/_search
{
"query": {
"multi_match": {
"query": "toothbrush",
"fields": [
"product_name",
"product_desc"
]
}
}
}
  • multi_match 跨多个 field 查询,表示查询分词必须出现在相同字段中。
GET /product_index/product/_search
{
"query": {
"multi_match": {
"query": "PHILIPS toothbrush",
"type": "cross_fields",
"operator": "and",
"fields": [
"product_name",
"product_desc"
]
}
}
}
  • match_phrase 用法(短语搜索)(与 match 进行对比):
  • 对这个查询词不进行分词,必须完全匹配查询词才可以作为结果显示。
GET /product_index/product/_search
{
"query": {
"match_phrase": {
"product_name": "PHILIPS toothbrush"
}
}
}
  • match_phrase + slop(与 match_phrase 进行对比):
  • 在说 slop 的用法之前,需要先说明原数据是:PHILIPS toothbrush HX6730/02,被分词后至少有:PHILIPS,toothbrush,HX6730 三个 term。
  • match_phrase 的用法我们上面说了,按理说查询的词必须完全匹配才能查询到,PHILIPS HX6730 很明显是不完全匹配的。
  • 但是有时候我们就是要这种不完全匹配,只要求他们尽可能靠谱,中间有几个单词是没啥问题的,那就可以用到 slop。slop = 2 表示中间如果间隔 2 个单词以内也算是匹配的结果()。
  • 其实也不能称作间隔,应该说是移位,查询的关键字分词后移动多少位可以跟 doc 内容匹配,移动的次数就是 slop。所以 HX6730 PHILIPS 其实也是可以匹配到 doc 的,只是 slop = 5 才行。
GET /product_index/product/_search
{
"query": {
"match_phrase": {
"product_name" : {
"query" : "PHILIPS HX6730",
"slop" : 1
}
}
}
}
  • match + match_phrase + slop 组合查询,使查询结果更加精准和结果更多
  • 但是 match_phrase 性能没有 match 好,所以一般需要先用 match 第一步进行过滤,然后在用 match_phrase 进行进一步匹配,并且重新打分,这里又用到了:rescore,window_size 表示对前 10 个进行重新打分
  • 下面第一个是未重新打分的,第二个是重新打分的
GET /product_index/product/_search
{
"query": {
"bool": {
"must": {
"match": {
"product_name": {
"query": "PHILIPS HX6730"
}
}
},
"should": {
"match_phrase": {
"product_name": {
"query": "PHILIPS HX6730",
"slop": 10
}
}
}
}
}
} GET /product_index/product/_search
{
"query": {
"match": {
"product_name": "PHILIPS HX6730"
}
},
"rescore": {
"window_size": 10,
"query": {
"rescore_query": {
"match_phrase": {
"product_name": {
"query": "PHILIPS HX6730",
"slop": 10
}
}
}
}
}
}
  • match_phrase_prefix 用法(不常用),一般用于类似 Google 搜索框,关键字输入推荐
  • max_expansions 用来限定最多匹配多少个 term,优化性能
  • 但是总体来说性能还是很差,因为还是会扫描整个倒排索引。推荐用 edge_ngram 做该功能
GET /product_index/product/_search
{
"query": {
"match_phrase_prefix": {
"product_name": "PHILIPS HX",
"slop": 5,
"max_expansions": 20
}
}
}
  • term 用法(与 match 进行对比)(term 一般用在不分词字段上的,因为它是完全匹配查询,如果要查询的字段是分词字段就会被拆分成各种分词结果,和完全查询的内容就对应不上了。):
  • 所以自己设置 mapping 的时候有些不分词的时候就最好设置不分词。
  • 其实 Elasticsearch 5.X 之后给 text 类型的分词字段,又默认新增了一个子字段 keyword,这个字段的类型就是 keyword,是不分词的,默认保留 256 个字符。假设 product_name 是分词字段,那有一个 product_name.keyword 是不分词的字段,也可以用这个子字段来做完全匹配查询。
GET /product_index/product/_search
{
"query": {
"term": {
"product_name": "PHILIPS toothbrush"
}
}
} GET /product_index/product/_search
{
"query": {
"constant_score": {
"filter":{
"term": {
"product_name": "PHILIPS toothbrush"
}
}
}
}
}
  • terms 用法,类似于数据库的 in
GET /product_index/product/_search
{
"query": {
"constant_score": {
"filter": {
"terms": {
"product_name": [
"toothbrush",
"shell"
]
}
}
}
}
}

query 和 filter 差异

  • 只用 query:
GET /product_index/_search
{
"query": {
"bool": {
"must": [
{
"terms": {
"product_name": [
"PHILIPS",
"toothbrush"
]
}
},
{
"range": {
"price": {
"gt": 12.00
}
}
}
]
}
}
}
GET /product_index/product/_search
{
"query": {
"constant_score": {
"filter": {
"range": {
"price": {
"gte": 30.00
}
}
}
}
}
}

多搜索条件组合查询(最常用)

  • bool 下包括:must(必须匹配,类似于数据库的 =),must_not(必须不匹配,类似于数据库的 !=),should(没有强制匹配,类似于数据库的 or),filter(过滤)
GET /product_index/product/_search
{
"query": {
"bool": {
"must": [
{
"match": {
"product_name": "PHILIPS toothbrush"
}
}
],
"should": [
{
"match": {
"product_desc": "刷头"
}
}
],
"must_not": [
{
"match": {
"product_name": "HX6730"
}
}
],
"filter": {
"range": {
"price": {
"gte": 33.00
}
}
}
}
}
} GET /product_index/product/_search
{
"query": {
"bool": {
"should": [
{
"term": {
"product_name": "飞利浦"
}
},
{
"bool": {
"must": [
{
"term": {
"product_desc": "刷头"
},
"term": {
"price": 30
}
}
]
}
}
]
}
}
}
  • should 有一个特殊性,如果组合查询中没有 must 条件,那么 should 中必须至少匹配一个。我们也还可以通过 minimum_should_match 来限制它匹配更多个。
GET /product_index/product/_search
{
"query": {
"bool": {
"should": [
{
"match": {
"product_name": "java"
}
},
{
"match": {
"product_name": "程序员"
}
},
{
"match": {
"product_name": "书"
}
},
{
"match": {
"product_name": "推荐"
}
}
],
"minimum_should_match": 3
}
}
}
  • 下面还用到自定义排序。
  • 排序最好别用到字符串字段上。因为字符串字段会进行分词,Elasticsearch 默认是拿分词后的某个词去进行排序,排序结果往往跟我们想象的不一样。解决这个办法是在设置 mapping 的时候,多个这个字段设置一个 fields raw,让这个不进行分词,然后查询排序的时候使用这个 raw,具体看这里:https://www.elastic.co/guide/cn/elasticsearch/guide/current/multi-fields.html
GET /product_index/product/_search
{
"query": {
"bool": {
"must": [
{
"match": {
"product_name": "PHILIPS toothbrush"
}
}
],
"should": [
{
"match": {
"product_desc": "刷头"
}
}
],
"filter": {
"bool": {
"must": [
{
"range": {
"price": {
"gte": 33.00
}
}
},
{
"range": {
"price": {
"lte": 555.55
}
}
}
],
"must_not": [
{
"term": {
"product_name": "HX6730"
}
}
]
}
}
}
},
"sort": [
{
"price": {
"order": "desc"
}
}
]
}
  • boost 用法(默认是 1)。在搜索精准度的控制上,还有一种需求,比如搜索:PHILIPS toothbrush,要比:Braun toothbrush 更加优先,我们可以这样:
GET /product_index/product/_search
{
"query": {
"bool": {
"must": [
{
"match": {
"product_name": "toothbrush"
}
}
],
"should": [
{
"match": {
"product_name": {
"query": "PHILIPS",
"boost": 4
}
}
},
{
"match": {
"product_name": {
"query": "Braun",
"boost": 3
}
}
}
]
}
}
}
  • dis_max 用法,也称作:best fields 策略。
  • 由于查询关键字是会被分词的,默认 query bool 查询多个字段的语法时候,每个字段匹配到一个或多个的时候分数比:一个字段匹配到查询分词的所有结果的分数来的大。但是对于我们来讲这样的不够精准的。所以我们希望查询字段中,匹配的关键字越多排序越靠前,而不是每个字段查询了一个分词就排前,我们可以使用 dis_max。
  • 但是使用 dis_max,一般还不够,建议再加上 tie_breaker。
  • tie_breaker 是一个小数值,在 0~1 之间用来将其他查询结果分数,乘以 tie_breaker 的值,然后再综合与 dis_max 最高分数的的分数一起进行计算。除了取 dis_max 的最高分以外,还会考虑其他的查询结果的分数。
  • 在 dis_max 基础上,为了增加精准,我们还可以加上:boost、minimum_should_match 等相关参数。其中 minimum_should_match 比较常用,因为查询字段的分词中如果只有一个分词查询上了这种结果基本是没啥用的。
  • 官网资料:https://www.elastic.co/guide/en/elasticsearch/guide/current/_best_fields.html
GET /product_index/product/_search
{
"query": {
"dis_max": {
"queries": [
{
"match": {
"product_name": "PHILIPS toothbrush"
}
},
{
"match": {
"product_desc": "iphone shell"
}
}
],
"tie_breaker": 0.2
}
}
} GET /product_index/product/_search
{
"query": {
"dis_max": {
"queries": [
{
"match": {
"product_name": {
"query": "PHILIPS toothbrush",
"minimum_should_match": "50%",
"boost": 3
}
}
},
{
"match": {
"product_desc": {
"query": "iphone shell",
"minimum_should_match": "50%",
"boost": 2
}
}
}
],
"tie_breaker": 0.3
}
}
}
  • prefix 前缀搜索(性能较差,扫描所有倒排索引)
  • 比如有一个不分词字段 product_name,分别有两个 doc 是:iphone-6,iphone-7。我们搜索 iphone 这个前缀关键字就可以搜索到结果
GET /product_index/product/_search
{
"query": {
"prefix": {
"product_name": {
"value": "iphone"
}
}
}
}
  • 通配符搜索(性能较差,扫描所有倒排索引)
GET /product_index/product/_search
{
"query": {
"wildcard": {
"product_name": {
"value": "ipho*"
}
}
}
}
  • 正则搜索(性能较差,扫描所有倒排索引)
GET /product_index/product/_search
{
"query": {
"regexp": {
"product_name": "iphone[0-9].+"
}
}
}
  • fuzzy 纠错查询
  • 参数 fuzziness 默认是 2,表示最多可以纠错两次,但是这个值不能很大,不然没效果。一般 AUTO 是自动纠错。
  • 下面的关键字漏了一个字母 o。
GET /product_index/product/_search
{
"query": {
"match": {
"product_name": {
"query": "PHILIPS tothbrush",
"fuzziness": "AUTO",
"operator": "and"
}
}
}
}

Elasticsearch DSL 常用语法介绍的更多相关文章

  1. Filter DSL 常用语法 -- 基本查询语法,必会

    转发自:https://www.cnblogs.com/ghj1976/p/5293250.html term 过滤 term主要用于精确匹配哪些值,比如数字,日期,布尔值或 not_analyzed ...

  2. openresty开发系列13--lua基础语法2常用数据类型介绍

    openresty开发系列13--lua基础语法2常用数据类型介绍 一)boolean(布尔)布尔类型,可选值 true/false: Lua 中 nil 和 false 为"假" ...

  3. python MVC、MTV 框架介绍 Django 模板系统常用语法

    Django 框架简介一.MVC框架和MTV框架1.MVC 全名Model View Controller,是软件工程中的一种软件架构模式,把软件系统分为三个基本部分.优势: 耦合性低 重用性高 生命 ...

  4. Markdown通用的常用语法说明

    前言 Markdown 是一种轻量级的 标记语言,语法简洁明了.学习容易,还具有其他很多优点,目前被越来越多的人用来写作使用. Markdown具有一系列衍生版本,用于扩展Markdown的功能(如表 ...

  5. Sql常用语法以及名词解释

    Sql常用语法以及名词解释 SQL分类: DDL—数据定义语言(CREATE,ALTER,DROP,DECLARE) DML—数据操纵语言(SELECT,DELETE,UPDATE,INSERT) D ...

  6. elasticsearch中常用的API

    elasticsearch中常用的API分类如下: 文档API: 提供对文档的增删改查操作 搜索API: 提供对文档进行某个字段的查询 索引API: 提供对索引进行操作,查看索引信息等 查看API: ...

  7. Swift轻松入门——基本语法介绍和详细地Demo讲解(利用WebView打开百度、新浪等网页)

    转载请务必注明出处(all copyright reserved by iOSGeek) 本文主要分为两个部分,第一部分介绍Swift的基本语法,第二部分讲解一个利用WebView来打开百度.sina ...

  8. sql 常用语法汇总

    Sql常用语法 SQL分类: DDL—数据定义语言(CREATE,ALTER,DROP,DECLARE) DML—数据操纵语言(SELECT,DELETE,UPDATE,INSERT) DCL—数据控 ...

  9. ES6常用语法

    ECMAScript 6(以下简称ES6)是JavaScript语言的下一代标准.因为当前版本的ES6是在2015年发布的,所以又称ECMAScript 2015. 也就是说,ES6就是ES2015. ...

随机推荐

  1. Linux操作系统安全-证书的申请原理

    Linux操作系统安全-证书的申请原理 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.APR的中间人攻击 如下图所示,如果在client和server端有一个中间人攻击就比较麻 ...

  2. 机器学习——k-均值算法(聚类)

    文章目录 k-均值(k-means)聚类 1.k-均值算法 2.k-均值算法的代价函数 3.k-均值算法步骤 4.初始化聚类中心点和聚类个数 5.sklearn实现k-means算法 k-均值(k-m ...

  3. HDU6706 huntian oy(2019年CCPC网络赛+杜教筛)

    目录 题目链接 思路 代码 题目链接 传送门 思路 看到这题还比较懵逼,然后机房大佬板子里面刚好有这个公式\(gcd(a^n-b^n,a^m-b^m)=a^{gcd(n,m)}-b^{gcd(n,m) ...

  4. python 多进程数量 对爬虫程序的影响

    1. 首先看一下 python 多进程的优点和缺点 多进程优点: 1.稳定性好: 多进程的优点是稳定性好,一个子进程崩溃了,不会影响主进程以及其余进程.基于这个特性,常常会用多进程来实现守护服务器的功 ...

  5. @TableName(mybatis-plus中的注解)

    @TableName 描述:表名注解 属性 类型 必须指定 默认值 描述 value String 否 "" 表名 schema String 否 "" sch ...

  6. Kibana 的 docker 镜像使用

    1.dockhub镜像网址:https://hub.docker.com/_/kibana 2.下载镜像: docker pull kibana:7.4.0 3.创建容器(Kibana 默认的端口为5 ...

  7. excel隔行选中内容如何操作

    查看log日志是站长经常要做的事,从日志中可以发现很多问题,spider最近有没来爬,爬了哪些url,哪些页面不存在了等等,这些都可以看得到.然后你要根据不同的情况采取相应的措施.ytkah喜欢把这些 ...

  8. CNCF LandScape Summary

    CNCF Cloud Native Interactive Landscape 1. App Definition and Development 1. Database Vitess:itess i ...

  9. postfix发邮件失败,日志和postqueue -p提示Connection refused

    1. postfix服务未启动 2. /etc/postfix/main.cf文件中未设置inet_interfaces = all

  10. rpm 子包创建学习

    rpm 在打包的时候,可以创建子包,这样可以清晰的进行软件包的拆分,以下是结合官方文档学习 的一个实践 预备条件 需要安装rpmdevtools spec 文件 内容 Name: foo Versio ...