Elasticsearch--更好的搜索_加权得分,脚本，同义词

目录 Apache Lucene评分 Elasticsearch的脚本功能脚本执行过程中可以使用的对象使用自定义的脚本库搜索不同语言的内容使用加权影响得分加权 function_score查询索引加权同义词同义词过滤器同义词规则 Apache Lucene评分计算文档的评分属性时,考虑如下因素: 文档加权:对文档建立索引时,对文档的加权值字段加权:查询和索引时,对字段的加权协调:基于文档条数的协调因子.对包含更多查询词条的文档,它提供更大的值逆文档频率:基于词条的因子,…

ElasticSearch 2 (18) - 深入搜索系列之控制相关度

ElasticSearch 2 (18) - 深入搜索系列之控制相关度摘要处理结构化数据(比如:时间.数字.字符串.枚举)的数据库只需要检查一个文档(或行,在关系数据库)是否与查询匹配. 布尔是/非匹配是全文搜索的基础部分,但不止这些,我们也同样需要知道每个文档与查询的相关度,在全文搜索引擎中我们不仅需要找到匹配的文档,还需要根据他们相关度的高低,对他们进行排序. 全文相关的公式或相似算法(similarity algorithms) 会将多个因素合并起来,为每个文档生成一个相关度分数 *_…

ElasticSearch 2 (15) - 深入搜索系列之多字段搜索

ElasticSearch 2 (15) - 深入搜索系列之多字段搜索摘要查询很少是简单的一句话匹配(one-clause match)查询.很多时候,我们需要用相同或不同的字符串查询1个或多个字段,也就是说,我们需要对多个查询语句以及他们相关分数(relevance scores)进行有意义的合并. 有时候或许我们正查找一本名为战争与和平(War and Peace)而作者叫Leo Tolstoy的书,或许我们正用"最少匹配"("minimum should match…

转：在ElasticSearch之下（图解搜索的故事）

ElasticSearch 2 (9) - 在ElasticSearch之下(图解搜索的故事) 摘要先自上而下,后自底向上的介绍ElasticSearch的底层工作原理,试图回答以下问题: 为什么我的搜索 *foo-bar* 无法匹配 foo-bar ? 为什么增加更多的文件会压缩索引(Index)? 为什么ElasticSearch占用很多内存? 版本 elasticsearch版本: elasticsearch-2.2.0 内容图解ElasticSearch 云上的集群集群里的盒子云…

Elasticsearch java api 基本搜索部分详解

文档是结合几个博客整理出来的,内容大部分为转载内容.在使用过程中,对一些疑问点进行了整理与解析. Elasticsearch java api 基本搜索部分详解 ElasticSearch 常用的查询过滤语句一.所使用版本的介绍使用的是elasticsearch2.4.3版本,在此只是简单介绍搜索部分的api使用二.简单的搜索使用api的时候,基本上可以将DSL搜索的所有情况均写出来,在此给出一个最简单搜索的全部的过程以及代码,之后将对不同的搜索只是针对函数进行介绍 (1)DSL搜索对…

ElasticSearch 2 (9) - 在ElasticSearch之下（图解搜索的故事）

ElasticSearch 2 (17) - 深入搜索系列之部分匹配

ElasticSearch 2 (17) - 深入搜索系列之部分匹配摘要到目前为止,我们介绍的所有查询都是基于完整术语的,为了匹配,最小的单元为单个术语,我们只能查找反向索引中存在的术语. 但是,如果我们想匹配部分术语而不是全部改怎么办?部分匹配(Partial matching) 允许用户指定查找术语的一部分,然后找出所有包含这部分片段的词. 与我们想象的不一样,需要对术语进行部分匹配的需求在全文搜索引擎的世界并不常见,但是如果读者有SQL方面的背景,可能会在某个时候使用下面的SQL语句对…

ElasticSearch 2 (16) - 深入搜索系列之近似度匹配

ElasticSearch 2 (16) - 深入搜索系列之近似度匹配摘要标准的全文搜索使用TF/IDF处理文档.文档里的每个字段或一袋子词.match 查询可以告诉我们哪个袋子里面包含我们搜索的术语,但这只是故事的一部分.它并不能告诉我们词语之间的关系. 考虑下面句子的区别: Sue ate the alligator. The alligator ate sue. Sue never goes anywhere without her alligator-skin purse. 一个 m…

ElasticSearch 2 (14) - 深入搜索系列之全文搜索

ElasticSearch 2 (14) - 深入搜索系列之全文搜索摘要在看过结构化搜索之后,我们看看怎样在全文字段中查找相关度最高的文档. 全文搜索两个最重要的方面是: 相关(relevance) 相关是将查询到相关的文档结果进行排名的一种能力,这种相关度可以是根据TF/IDF.地理位置相似性(geolocation).模糊相似,或者其他的一些算法得出. 分析(analysis) 将一个文本块转换为唯一的.规范化的token的过程,目的是为了(a)创建反向索引以及(b)查询反向索引. 当我…

ElasticSearch 2 (13) - 深入搜索系列之结构化搜索

ElasticSearch 2 (13) - 深入搜索系列之结构化搜索摘要结构化查询指的是查询那些具有内在结构的数据,比如日期.时间.数字都是结构化的.它们都有精确的格式,我们可以对这些数据进行逻辑操作,比较常见的操作包括比较时间区间,或者获取两个数字间的较大值. 文本也可以是结构化的.比如彩笔可以有红.绿.蓝颜色集合,一个博客可以有关键字标签分布式和搜索 . 电商网站上的商品都有UPC(Universal Product Codes)或者其他需要严格结构化格式的唯一标识. 在结构化查…

Elasticsearch学习之深入搜索二 --- 搜索底层原理剖析

1. 普通match如何转换为term+should { "match": { "title": "java elasticsearch"}} 使用诸如上面的match query进行多值搜索的时候,es会在底层自动将这个match query转换为bool的语法,bool should,指定多个搜索词,同时使用term query { "bool": { "should": [ { "term&…

Elasticsearch学习之深入搜索一 --- 提高查询的精准度

1. 为帖子增加标题字段 POST /forum/article/_bulk { "} } { "doc" : {"title" : "this is java and elasticsearch blog"} } { "} } { "doc" : {"title" : "this is java blog"} } { "} } { "doc&qu…

Elasticsearch 调优之搜索速度优化

本章讨论搜索速度优化:搜索速度与系统资源.数据索引方式.查询方式等多方面 1.为文件系统cache预留足够的内存 1)应用程序一般情况下,读写都会被操作系统“cache” 2)cache保存在物理内存中,命中cache可以降低对磁盘的读写频率 3)搜索对系统cache很依赖,如果搜索从磁盘读取数据,则一定会产生相对较高的延迟 4)应该至少为系统cache预留一般的可用内存,更大内存可以有更高的cache命中率 5)线上应禁用swap 2.使用更快的硬件 1)写入对CPU更敏感.而搜索对IO能力需…

Openwrt_Linux_crontab任务_顺序执行脚本

Openwrt_Linux_crontab任务_顺序执行脚本转载注明来源: 本文链接来自osnosn的博客,写于 2020-12-21. Linux (openwrt,debian,centos...) 中 crontab 的任务太多,不想挤在一起同时执行可以考虑放到一个shell脚本中顺序执行.这样,机器的负荷就不会在那些特定的时间点暴增. crontab 中只需要加入一行*/5 * * * * /path.../runTaskInSequence.sh,每5分钟执行一次即可. #!/…

Elasticsearch结构化搜索_在案例中实战使用term filter来搜索数据

1.根据用户ID.是否隐藏.帖子ID.发帖日期来搜索帖子 (1)插入一些测试帖子数据 POST /forum/article/_bulk { "index": { "_id": 1 }} { "articleID" : "XHDK-A-1293-#fJ3", "userID" : 1, "hidden": false, "postDate": "2017-0…

elasticsearch系列四：搜索详解（搜索API、Query DSL）

一.搜索API 1. 搜索API 端点地址从索引tweet里面搜索字段user为kimchy的记录 GET /twitter/_search?q=user:kimchy 从索引tweet,user里面搜索字段user为kimchy的记录 GET /twitter/tweet,user/_search?q=user:kimchy GET /kimchy,elasticsearch/_search?q=tag:wow 从所有索引里面搜索字段tag为wow的记录 GET /_all/_search?…

用ElasticSearch搭建自己的搜索和分析引擎

作者:robben,腾讯高级工程师商业转载请联系腾讯WeTest获得授权,非商业转载请注明出处. 导语:互联网产品中的检索功能随处可见.当你的项目规模是百度大搜|商搜或者微信公众号搜索这种体量的时候,自己开发一个搜索引擎,加入各种定制的需求和优化,是非常自然的事情.但如果只是普通的中小型项目甚至创业团队|创业项目,直接拿轮子则是更合理的选择.ElasticSearch就是这样一个搜索引擎的轮子.更重要的是,除去常规的全文检索功能之外,它还具有基础的统计分析功能(最常见的就是聚合),这也让他变得…

elasticsearch(5) 请求体搜索

上一篇提到的轻量搜索非常简单便捷,但是通过请求体查询可以更充分的利用查询的强大功能.因为_search api中大部分参数是通过HTTP请求体而非查询字符串来传递的. 一空查询对于空查询来说,最简单的方式就是传入一个空的请求体,获取所有文档(默认返回前10个完整文档内容) GET /_search {} 你也可以使用from 和 size参数 GET /_search { , } 这样的方式来查询第11条到15条的文档大家可能会好奇,这明明是一个GET请求方式,为何可以有请求体.事实上这个…

用ElasticSearch搭建自己的搜索和分析引擎【转自腾讯Wetest】

本文大概地介绍了ES的原理,以及Wetest在使用ES中的一些经验总结.因为ES本身涉及的功能和知识点非常广泛,所以这里重点挑出了实际项目中可能会用到,也可能会踩坑的一些关键点进行了阐述. 一重要概念集群(Cluster):ES是一个分布式的搜索引擎,一般由多台物理机组成.这些物理机,通过配置一个相同的cluster name,互相发现,把自己组织成一个集群. 节点(Node):同一个集群中的一个 Elasticearch主机. 主分片(Primary shard):索引(下文介绍)的一个物…

elasticsearch 深入 —— 结构化搜索

结构化搜索结构化搜索(Structured search) 是指有关探询那些具有内在结构数据的过程.比如日期.时间和数字都是结构化的:它们有精确的格式,我们可以对这些格式进行逻辑操作.比较常见的操作包括比较数字或时间的范围,或判定两个值的大小. 文本也可以是结构化的.如彩色笔可以有离散的颜色集合: 红(red) . 绿(green) . 蓝(blue) .一个博客可能被标记了关键词分布式(distributed) 和搜索(search) .电商网站上的商品都有 UPCs(通用产品码 Uni…

使用elasticsearch搭建自己的搜索系统

什么是elasticsearch Elasticsearch 是一个开源的高度可扩展的全文搜索和分析引擎,拥有查询近实时的超强性能. 大名鼎鼎的Lucene 搜索引擎被广泛用于搜索领域,但是操作复杂繁琐,总是让开发者敬而远之.而 Elasticsearch将 Lucene 作为其核心来实现所有索引和搜索的功能,通过简单的 RESTful 语法来隐藏掉 Lucene 的复杂性,从而让全文搜索变得简单 ES在Lucene基础上,提供了一些分布式的实现:集群,分片,复制等. 搜索为什么不用MySQL而…

Elasticsearch实现类似 like '?%' 搜索

在做搜索的时候,下拉联想词的搜索肯定是最常见的一个场景,用户在输入的时候,要自动补全词干,说得简单点,就是以...开头搜索,如果是数据库,一句SQL就很容易实现,但在elasticsearch如何实现呢? 大家可能会立马想到用elasticsearch自带的suggest功能,确实,在一些初级应用场景,特别是数据量比较少的情况下,suggest可以快速简易的解决问题. 在数据量比较大的时候,性能有待提高,而且遇到复杂场景,suggest就会显得力不从心,看下面一个需求: 1.下拉结果需要根据城市…