普通短语匹配不精准怎么办

2024-10-04

ES中文分词器之精确短语匹配（解决了match_phrase匹配不全的问题）

分词器选择调研了几种分词器,例如IK分词器,ansj分词器,mmseg分词器,发现IK的分词效果最好.举个例子: 词:<<是的>><span>哈<\span>撒多撒ئۇيغۇر تىلى王者荣耀sdsd@4342啊啊啊 Standard: 是,的,span,哈,span,撒,多,撒,ئۇيغۇر,تىلى,王,者,荣,耀,sdsd,4342,啊,啊,啊,啊 mmseg_maxword:是,的,span,哈,span,撒,多,撒,ئ,ۇ,ي,غ,ۇ,ر,ت,

[Elasticsearch] 邻近匹配 (一) - 短语匹配以及slop參数

本文翻译自Elasticsearch官方指南的Proximity Matching一章. 邻近匹配(Proximity Matching) 使用了TF/IDF的标准全文搜索将文档,或者至少文档中的每一个字段,视作"一大袋的单词"(Big bag of Words).match查询可以告诉我们这个袋子中是否包括了我们的搜索词条,可是这仅仅是一个方面.它不能告诉我们关于单词间关系的不论什么信息. 考虑下面这些句子的差别: Sue ate the alligator. The alligat

ElasticSearch 学习记录之ES短语匹配基本用法

短语匹配短语匹配故名思意就是对分词后的短语就是匹配,而不是仅仅对单独的单词进行匹配下面就是根据下面的脚本例子来看整个短语匹配的有哪些作用和优点 GET /my_index/my_type/_search { "query": { "match_phrase": { "title": "quick brown fox" } } } //查询分词之后连续的 //例如 brown fox 可以查询到,但是quick fox 查询

2 Match、Filter、排序、分页、全文检索、短语匹配、关键词高亮

查索引内所有文档记录 GET /beauties/my/_search GET /beauties/my/_search { "query":{ "match_all": {} } } 匹配.排序 GET /beauties/my/_search { "query": { "match": { "Name": "

06-Location详解之精准匹配

之前nginx不是编译过吗?现在重新make install一下. 刚刚这个是我们新安装的.原始版的nginx,配置文件比较少,便于我们做调试. 试试精准匹配的概念. 匹配的是/.优先匹配这个最精准的,一旦匹配完成就立即停止这个匹配过程. 为了以示区别,我把它弄到别的目录上去. 应该是谁发生效果呢?按照官方的说法,等于号是精准匹配. 应该是精准的生效.但是好像出错了. 如果是精准匹配生效访问192.168.118.128应该是显示 <html>welcome to z.com's admin

[Elasticsearch] 部分匹配 (三) - 查询期间的即时搜索

本章翻译自Elasticsearch官方指南的Partial Matching一章. 查询期间的即时搜索(Query-time Search-as-you-type) 如今让我们来看看前缀匹配可以怎样帮助全文搜索. 用户已经习惯于在完毕输入之前就看到搜索结果了 - 这被称为即时搜索(Instant Search, 或者Search-as-you-type).这不仅让用户可以在更短的时间内看到搜索结果.也可以引导他们得到真实存在于我们的索引中的结果. 比方.假设用户输入了johnnie walke

OpenCV探索之路（二十三）：特征检测和特征匹配方法汇总

一幅图像中总存在着其独特的像素点,这些点我们可以认为就是这幅图像的特征,成为特征点.计算机视觉领域中的很重要的图像特征匹配就是一特征点为基础而进行的,所以,如何定义和找出一幅图像中的特征点就非常重要.这篇文章我总结了视觉领域最常用的几种特征点以及特征匹配的方法. 在计算机视觉领域,兴趣点(也称关键点或特征点)的概念已经得到了广泛的应用, 包括目标识别. 图像配准. 视觉跟踪. 三维重建等. 这个概念的原理是, 从图像中选取某些特征点并对图像进行局部分析,而非观察整幅图像. 只要图像中有足够

[Elasticsearch] 邻近匹配 (二) - 多值字段，邻近程度与相关度

多值字段(Multivalue Fields) 在多值字段上使用短语匹配会产生古怪的行为: PUT /my_index/groups/1 { "names": [ "John Abraham", "Lincoln Smith"] } 执行一个针对Abraham Lincoln的短语查询: GET /my_index/groups/_search { "query": { "match_phrase": {

ElasticSearch查询第四篇：匹配查询（Match）

<ElasticSearch查询>目录导航: ElasticSearch查询第一篇:搜索API ElasticSearch查询第二篇:文档更新 ElasticSearch查询第三篇:词条查询 ElasticSearch查询第四篇:匹配查询(Match) ElasticSearch查询第五篇:布尔查询匹配(Match)查询属于全文(Fulltext)查询,不同于词条查询,ElasticSearch引擎在处理全文搜索时,首先分析(analyze)查询字符串,然后根据分词构建查询,最终返

es 基于match_phrase的模糊匹配原理及使用

[版权声明]:本文章由danvid发布于http://danvid.cnblogs.com/,如需转载或部分使用请注明出处在业务中经常会遇到类似数据库的"like"的模糊匹配需求,而es基于分词的全文检索也是有类似的功能,这个就是短语匹配match_phrase,但往往业务需求都不是那么简单,他想要有like的功能,又要允许有一定的容错(就是我搜索"东方宾馆"时,"广州花园宾馆酒店"也要出来,这个就不是单纯的"like"),

ElasticSearch 2 (17) - 深入搜索系列之部分匹配

ElasticSearch 2 (17) - 深入搜索系列之部分匹配摘要到目前为止,我们介绍的所有查询都是基于完整术语的,为了匹配,最小的单元为单个术语,我们只能查找反向索引中存在的术语. 但是,如果我们想匹配部分术语而不是全部改怎么办?部分匹配(Partial matching) 允许用户指定查找术语的一部分,然后找出所有包含这部分片段的词. 与我们想象的不一样,需要对术语进行部分匹配的需求在全文搜索引擎的世界并不常见,但是如果读者有SQL方面的背景,可能会在某个时候使用下面的SQL语句对

ElasticSearch 2 (16) - 深入搜索系列之近似度匹配

ElasticSearch 2 (16) - 深入搜索系列之近似度匹配摘要标准的全文搜索使用TF/IDF处理文档.文档里的每个字段或一袋子词.match 查询可以告诉我们哪个袋子里面包含我们搜索的术语,但这只是故事的一部分.它并不能告诉我们词语之间的关系. 考虑下面句子的区别: Sue ate the alligator. The alligator ate sue. Sue never goes anywhere without her alligator-skin purse. 一个 m

利用SQL模糊匹配来验证字段是否是日期格式

最近需要验证数据仓库某个字段是否转化成某种日期格式,比如时间戳格式 ‘2016-05-03 23:21:35.0‘, 但是DB2不支持REGEXP_LIKE(匹配)函数,所以需要重新想其他办法. 最后使用了最常规的like来模糊匹配,虽然比不上正则匹配那么精准,但也够用了. 思路: 一个下划线代表一个字符,那‘2016-05-03 23:21:35.0‘可以表示成'____-__-__-__.__.__.______'. 当然这种办法比较笨,不能识别是数字还是字母还是字符,当然更好的办法是编写U

Nginx中location匹配及rewrite重写

目录一.常用的Nginx正则表达式二.location 2.1.location三类匹配类型 2.2.常用的匹配规则 2.3.location优先级 2.3.1.举例说明 2.4.实际网站使用中,至少有三个匹配规则定义 2.4.1.第一个必选规则 2.4.2.第二个必选规则 2.4.3.第三个必选规则三.rewrite 3.1.rewrite概述 3.2.rewrite跳转实现 3.3.rewrite执行顺序 3.4.rewrite语法格式四.rewrite跳转实验 4.1.基于域名的跳

es crul查询（一）

C:\Users\Administrator>elasticdump --input=D:\test --output=http://localhost:9200/logs_apipki_20190102 #查询所有索引信息 http://localhost:9200/_cat/indices?v #轻量级搜索 curl -X GET "localhost:9200/test/user/_search?q=last_name:Smith" #表达式搜索 curl -X GET &

ES进阶--02

第11节深度探秘搜索技术_案例实战基于dis_max实现best fields策略进行多字段搜索课程大纲 1.为帖子数据增加content字段 POST /forum/article/_bulk{ "update": { "_id": "1"} }{ "doc" : {"content" : "i like to write best elasticsearch article"} }

es中级部分知识点总结

--------------------------------------------------------------- 搜索开始--------------------------------------------------------------- --------------------------------------------------------------- 1 es 5.2 以后 type:text 的字段或默认建立一个最长 256 个字符的不分词的 fie

Elasticsearch（四）优化用户体验

改正用户拼写 Term suggester:词项匹配建议:可以通过wiki的插件来下载wiki上面的单词以及短语,来作为你的拼写提示基础仓库: Phrase suggester:n-gram算法,短语匹配: Complete suggester:prefix匹配:内置了FST(Finite State Tranduter)数据结构,实现快速检索,自动完成后续字符填充:但是这个在实现层面上,对于输入那些内容需要预先指定好,这个工作量可就有点大了,然后指定output,就是这些指定的内容输入后,将会

elasticsearch query dsl

1.match / match_phrase / match_phrase_prefix / multi_match[查询] 1.1 match 它会根据所给的字符串,进行分词,然后去找出,包含这些分词结果的记录. GET /_search { "query": { "match": { "title": "我今天看了一场电影" } } } 中文好用的是ik的两个分词器 ik_max_word 和 ik_smartik_max

JAVAEE——Solr：安装及配置、后台管理索引库、使用SolrJ管理索引库、仿京东的电商搜索案例实现

1 学习回顾 1. Lucene 是Apache开源的全文检索的工具包创建索引查询索引 2. 遇到问题? 文件名及文件内容顺序扫描法全文检索 3. 什么是全文检索? 这种先创建索引再对索引进行搜索的过程叫全文检索 4. 索引是什么? 非结构数据中提取一个数据.并重新组合的过程叫索引 5. Lucene实现 6. 入门程序磁盘文件为原始文件创建索引第一步:获取文件第二步:创建文档对象第三步:创建分析器第四步:保存索引及文档到索引库搜索索引第一步:用户接口(百度)

普通短语匹配不精准怎么办

热门专题