关于Lucene里面的查询评分,其实是基于一个公式:TF/ IDF(Term-Frequency/ Inverse Document Frequency),词频率/ 倒排文档频率,这个公式讲了一个故事,就是一个不具备区分度的词,就是它的在各个文档中都有出现(在每个文档中出现次数并不重要),那么这个词就不具备区分度,这个词的权重也就越低,这个就是倒排文档频率的概念。

关于查询改写

我们知道ES是基于Lucene的,对上提供了良好的接口和简易的DSL,但是其实es是做了解析的,其中一种解析是可以通过指定的,这个就是"查询改写";

Scoring_boolean:针对每个文档打分,每个词生成一个should从句,这种改写最耗费CPU,因为需要大量的计算;

Const_score_boolean:这个不再是基于从句的计算,而是基于boost,还记得我们在上一篇文章中有讲到文档的norm的概念,它是基于文档在索引时候的boost值来生成的;那么这个计算过程也是通过计算文档的boost值来获得的。

Top_term_N:和scoring_boolean很类似,每个词项将会被翻译长should查询子句;但是只是保留前N个最佳的词项;那么这个最佳词项的计算是怎么来的?是不是最多只会有N个查询子句?

Top_term_boost_N:和Top_term_N和类似,但是这种并不计算分数(和const_score_boolean类似)。

curl -XGET 'localhost:9200/clients/client/1/_explain?pretty' -d '{

"query" : {

"prefix" : {

"name" : {

"prefix" : "j",

"rewrite" : "constant_score_boolean"

}

}

}

}'

关于查询模板

查询模板,就是可以通过定制一套模板,设定一些占位符,然后通过parameter节点来为这些占位符赋值的方式:

Es的模板式基于musttache模板引擎来制作的;可以基于这些模板来实现条件,循环以及指定默认值等逻辑。

关于过滤器

过滤器不评分,只是过滤,所以检索性能比较好,但是相关性差;

查询(query)有评分环节,所以检索性能比较差,但是相关性好。

过滤器的实现和servlet的过滤器是一样的,都是一个过滤器链,逐条去走。每个过滤器都是基于上一个过滤器检索的条件进行处理;那些"很重"的过滤要考虑放到过滤链的后面;

关于查询分类

1.基本查询,match,match_all等,只有查询索引一个目的;通常是其他复杂查询的一部分。

2.组合查询,bool以及dismax,前者是子查询的分数之和作为文档的分数,后者则是子查询分数最大的那个起到关键作用(从名字上其实可以看出来)。

3.无分析查询,查询不会被ES解析,而是直接传递到lucene做处理,这类查询基本就是把ES当成NoSql来使用;term查询,prefix查询以及wildcard查询等;另外,可以通过对于停用词的二次处理实现高效检索,所谓停用词是指一些类似于"a","the",汉语里面的"啊","也"之类的虚词,介词他们在查询中权重并不高;索性第一轮查询屏蔽到这类停用词,对与权重搞得词做一个查询并打分,然后再针对停用词做一次过滤,只是查询而不计算得分,减少计算量;

4.全文检索,直接使用lucene的查询机制以及查询语法;这类检索比较适合类似于google那种功能,查询结构由用户输入;match,multi_match,simple_query_string以及query_string等;

5.模式匹配查询,prefix,正则,wildcard等;模式匹配计算很昂贵,慎用

6.相似度查询,fuzzy*, more_like*;

7.支持打分操作,可以自定义打分规则,boosting,constant_score,function_score,indices等;

8.位置敏感查询,指定词项之间的距离;match_phrase(可以通过制定splot来指定分词词汇之间的距离),span*;这类查询也是比较耗费cpu的,慎用。

9.结构敏感查询,ES的结构化文档,嵌套文档查询等;但是ES对于结构化的查询并不是专业。

ElasticSearch(二) 关于DSL的更多相关文章

  1. 利用kibana学习 elasticsearch restful api (DSL)

    利用kibana学习 elasticsearch restful api (DSL) 1.了解elasticsearch基本概念Index: databaseType: tableDocument: ...

  2. ElasticSearch的 Query DSL 和 Filter DSL

    Elasticsearch支持很多查询方式,其中一种就是DSL,它是把请求写在JSON里面,然后进行相关的查询. Query DSL 与 Filter DSL DSL查询语言中存在两种:查询DSL(q ...

  3. ElasticSearch(二)CentOs6.4下安装ElasticSearch

    一.准备工作 Elastic 需要 Java 8 环境.如果你的机器还没安装 Java,先需要安装java环境,同时还注意要保证环境变量JAVA_HOME正确设置. 链接:https://pan.ba ...

  4. elasticsearch 搜索提示DSL

    1,创建mapping: PUT /news_website { "mappings": { "news" : { "properties" ...

  5. DSL是什么?Elasticsearch的Query DSL又是什么?

    1.DSL简介 DSL 其实是 Domain Specific Language 的缩写,中文翻译为领域特定语言.而与 DSL 相对的就是 GPL,这里的 GPL 并不是我们知道的开源许可证(备注:G ...

  6. elasticsearch 二、elasticsearch-head安装

    简介 elastricsearch-head是用于elasticsearch群集浏览和交互的插件. 源码:https://github.com/mobz/elasticsearch-head (上图来 ...

  7. python查询elasticsearch(Query DSL) 实例

    import datetime import sys import getopt import hashlib from elasticsearch import Elasticsearch &quo ...

  8. 【Elasticsearch学习】DSL搜索大全(持续更新中)

    1.复合查询 复合查询能够组合其他复合查询或者查询子句,同时也可以组合各个查询的查询结果及得分,也可以从Query查询转换为Filter过滤器查询. 首先介绍一下Query Context和 Filt ...

  9. ElasticSearch的查询(二)

    一.Query String search 添加测试数据 PUT test_search { "mappings": { "test_type": { &quo ...

随机推荐

  1. http 请求头部解析

    作者:知乎用户链接:https://www.zhihu.com/question/42696895/answer/109035792来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请 ...

  2. centos安装python3虚拟环境和python3安装

    1.本文的系统命令一般会在语句前加上#号,以区分系统命令及其他内容.输入命令时,无需输入#号. # yum install vim 2.本文系统输出的信息,会在前面加上>>号. # whi ...

  3. Day8作业及默写

    1,有如下文件,a1.txt,里面的内容为: 老男孩是最好的培训机构, 全心全意为学生服务, 只为学生未来,不为牟利. 我说的都是真的.哈哈 分别完成以下的功能: 将原文件全部读出来并打印. with ...

  4. Win7+Ubuntu双系统时间不一致

    转自:http://blog.sina.com.cn/s/blog_55546df90100xkf3.html 最近装了ubuntu和win7双系统,但是发现每次进入win7后时间总是不对,总是比当地 ...

  5. npm 包管理器的使用

    1. 权限问题 Warning "root" does not have permission to access the dev dir · Issue #454 · nodej ...

  6. 安卓 dex 通用脱壳技术研究(三)

    /*     此为DexHunter实现的主要功能,进行内存dump,将class_def_items中dump出classdef和extra部分 */ void* DumpClass(void *p ...

  7. HPU组队赛J:Ball King(线段树)

    时间限制 1 Second  内存限制 512 Mb 题目描述 HPU601球王争霸赛即将举行,ACMER纷纷参加. 现在有n个人报名参赛,每个人都有一个实力值 ai,实力值较大者获胜. 为保证比赛公 ...

  8. nginx负载均衡、nginx ssl原理及生成密钥对、nginx配制ssl

    1.nginx负载均衡 新建一个文件:vim /usr/local/nginx/conf/vhost/load.conf写入: upstream abc_com{ip_hash;server 61.1 ...

  9. NET Core + Ocelot + IdentityServer4 + Consul

    .NET Core + Ocelot + IdentityServer4 + Consul 基础架构实现 先决条件 关于 Ocelot 针对使用 .NET 开发微服务架构或者面向服务架构提供一个统一访 ...

  10. java-类中需注意的问题

    1.对成员变量的操作只能放在方法中,方法可以对成员变量和该方法中声明的局部变量进行操作. 在声明类的成员变量时,可以同时赋予初值,例如: class Test { int a=12; float b= ...