ES标签搜索并解决评分排序问题

一、概述

需求：

　　最近在做一个新闻项目，有这样一个需求，如下：

用户根据视频内容手动创建标签，标签个数不限
在视频详情页提供根据标签推荐视频功能，即按本视频的标签进行搜索，标签匹配多的排在前面，匹配少的排在后面

经过分析、调研，以单字段存储标签，尝试了下面的几种方案，这里一并写出

不可行方案：

字段为keyword类型，数据以数组存储，未找到可实现此功能的检索方式
字段为text类型，多个标签以空格隔开或者数组存储，使用match搜索，数据评分不准确
字段为text类型，多个标签以空格隔开或者数组存储，使用match结合match_phrase搜索，数据评分扔不准确

可行方案：

1. 字段为text类型，指定分词器为whitespace，以空格分隔标签

"mediaTag" : {

   "type" : "text",

   "analyzer": "whitespace"

}

2. 字段为text类型，指定分词器为pattern，指定标签分隔字符，以逗号分隔

PUT /es_medias_test2

{

  "settings": {

    "analysis": {

      "analyzer": {

        "comma": {　　//自定义分词器名称

          "type": "pattern",

          "pattern": ","

        }

      }

    }

  },

  "mappings": {

    "esmedias": {

      "properties": {

        "mediaTag": {

          "type": "text",

          "analyzer": "comma"

        }

      }

    }

  }

}

二、可行方案测试（以可行方案一为例）

2. 创建索引

PUT /es_medias_test2

{

  "settings": {

    "index": {

      "number_of_shards": "1",

      "number_of_replicas": "0"

    }

  },

  "mappings": {

    "esmedias": {

      "properties": {

        "mediaTag" : {

            "type" : "text",

            "analyzer": "whitespace"

          }

      }

    }

  }

}

2. 添加数据

POST /es_medias_test2/_bulk

{"create":{"_index":"es_medias_test2","_type":"esmedias","_id":"o3kyp3YB_f4AQBwwbA7Q"}}

{"mediaTag":"美国 英国"}

{"create":{"_index":"es_medias_test2","_type":"esmedias","_id":"lHk0p3YB_f4AQBwwvxBz"}}

{"mediaTag":"英国 美国"}

{"create":{"_index":"es_medias_test2","_type":"esmedias","_id":"-Xk1p3YB_f4AQBwwNRBt"}}

{"mediaTag":"美国 法国 英国"}

{"create":{"_index":"es_medias_test2","_type":"esmedias","_id":"AXlYp3YB_f4AQBww9zDT"}}

{"mediaTag":"china 美国 英国"}

{"create":{"_index":"es_medias_test2","_type":"esmedias","_id":"13k1p3YB_f4AQBwwBxDw"}}

{"mediaTag":"美国 英国 士大夫"}

{"create":{"_index":"es_medias_test2","_type":"esmedias","_id":"PXk1p3YB_f4AQBwwfxGI"}}

{"mediaTag":"美国"}

{"create":{"_index":"es_medias_test2","_type":"esmedias","_id":"G3k1p3YB_f4AQBwwahEM"}}

{"mediaTag":"英国 船"}

{"create":{"_index":"es_medias_test2","_type":"esmedias","_id":"G3lap3YB_f4AQBwwNTEX"}}

{"mediaTag":"china 美国"}

{"create":{"_index":"es_medias_test2","_type":"esmedias","_id":"FXlLp3YB_f4AQBwwUCRf"}}

{"mediaTag":"china 美国 法国"}

4. 测试

GET /es_medias_test2/_search

{

  "query": {

    "match": {

      "mediaTag": "美国 英国"

    }

  }

}

返回结果符合预期

{
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 10,
    "max_score" : 1.8475795,
    "hits" : [
      {
        "_index" : "es_medias_test2",
        "_type" : "esmedias",
        "_id" : "-Xk1p3YB_f4AQBwwNRBt",
        "_score" : 1.8475795,
        "_source" : {
          "mediaTag" : "美国 法国 英国"
        }
      },
      {
        "_index" : "es_medias_test2",
        "_type" : "esmedias",
        "_id" : "FXlLp3YB_f4AQBwwUCRf",
        "_score" : 1.5141833,
        "_source" : {
          "mediaTag" : "china 美国 法国"
        }
      },
      {
        "_index" : "es_medias_test2",
        "_type" : "esmedias",
        "_id" : "o3kyp3YB_f4AQBwwbA7Q",
        "_score" : 0.66557413,
        "_source" : {
          "mediaTag" : "美国 英国"
        }
      },
      {
        "_index" : "es_medias_test2",
        "_type" : "esmedias",
        "_id" : "xXkyp3YB_f4AQBwwpw6Y",
        "_score" : 0.66557413,
        "_source" : {
          "mediaTag" : "美国 英国"
        }
      },
      {
        "_index" : "es_medias_test2",
        "_type" : "esmedias",
        "_id" : "lHk0p3YB_f4AQBwwvxBz",
        "_score" : 0.66557413,
        "_source" : {
          "mediaTag" : "英国 美国"
        }
      },
      {
        "_index" : "es_medias_test2",
        "_type" : "esmedias",
        "_id" : "13k1p3YB_f4AQBwwBxDw",
        "_score" : 0.5578373,
        "_source" : {
          "mediaTag" : "美国 英国 士大夫"
        }
      },
      {
        "_index" : "es_medias_test2",
        "_type" : "esmedias",
        "_id" : "AXlYp3YB_f4AQBww9zDT",
        "_score" : 0.39778596,
        "_source" : {
          "mediaTag" : "china,美国 英国"
        }
      },
      {
        "_index" : "es_medias_test2",
        "_type" : "esmedias",
        "_id" : "G3k1p3YB_f4AQBwwahEM",
        "_score" : 0.39778596,
        "_source" : {
          "mediaTag" : "英国 船"
        }
      },
      {
        "_index" : "es_medias_test2",
        "_type" : "esmedias",
        "_id" : "PXk1p3YB_f4AQBwwfxGI",
        "_score" : 0.33188638,
        "_source" : {
          "mediaTag" : "美国"
        }
      },
      {
        "_index" : "es_medias_test2",
        "_type" : "esmedias",
        "_id" : "G3lap3YB_f4AQBwwNTEX",
        "_score" : 0.26778817,
        "_source" : {
          "mediaTag" : "china 美国"
        }
      }
    ]
  }
}

ES标签搜索并解决评分排序问题的更多相关文章

#研发解决方案介绍#基于ES的搜索+筛选+排序解决方案
郑昀基于胡耀华和王超的设计文档最后更新于2014/12/3 关键词:ElasticSearch.Lucene.solr.搜索.facet.高可用.可伸缩.mongodb.SearchHub.商品中 ...
ElasticSearch 学习记录之ES高亮搜索
高亮搜索 ES 通过在查询的时候可以在查询之后的字段数据加上html 标签字段,使文档在在web 界面上显示的时候是由颜色或者字体格式的 GET /product/_search { "si ...
wukong引擎源码分析之索引——part 3 文档评分无非就是将docid对应的fields信息存储起来，为搜索结果rank评分用
之前的文章分析过,接受索引请求处理的代码在segmenter_worker.go里: func (engine *Engine) segmenterWorker() { for { request : ...
atitit.无线上网卡无法搜索WiFi 解决无线路由器信号不能被连接
atitit.无线上网卡无法搜索WiFi 解决无线路由器信号不能被连接 #---现象 pc机无线网卡无法搜索到无线路由器的信号.. 但是,笔记本电脑和手机能够... 只要pc机无线网卡可以搜索信号, ...
C++ sqlite3解决中文排序问题
导言:sqlite3默认的编码方式为UTF8编码,而在UTF8编码下,中文不是按照拼音顺序编码的,所以想解决中文排序问题,必须自定义排序规则,将UTF8编码转换成GB2312编码(GB2312编码中文 ...
xpath教程一---简单的标签搜索
工具 Python3版本 lxml库[优点是解析快] HTML代码块[从网络中获取或者自己杜撰一个] requests[推荐安装,从网页上获取网页代码练手,再好不过了] 讲解网页代码都是成对的标签, ...
selenium 获取不了标签文本的解决方法
selenium 获取不了标签文本的解决方法 ------ 即driver.find_element_by_xxx().text() 为空的解决办法如果得到的文本只为空,而非我们期望的baidu,那 ...
python用户评论标签匹配的解决方法
python用户评论标签匹配的解决方法这篇文章主要为大家详细介绍了python用户评论标签匹配的解决方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下我们观察用户评论发现:属性词往往和情感词伴 ...
es lucene搜索及聚合流程源码分析
本文以TermQuery,GlobalOrdinalsStringTermsAggregator为例,通过代码,分析es,lucene搜索及聚合流程.1:协调节点收到请求后,将search任务发到相关 ...

随机推荐

SSM之Spring框架--->>墨盒案例
分析: 程序中包括打印机(Printer).墨盒(Ink).和纸张(Paper).三类组件首先创建一个新项目文件Spring_Box 我们来定义墨盒和纸张的接口类墨盒接口Ink.java文件内容如 ...
Canal Admin
一.Canal Admin 安装与配置 1.1 下载 wget https://github.com/alibaba/canal/releases/download/canal-1.1.4/canal ...
Python函数独立星号（*）分隔的命名关键字参数
如果需要限制关键字参数的输入名字,就需要使用到命名关键字参数的形式,所谓命名关键字参数就是给关键字参数限定指定的名字,输入其他名字不能识别.命名关键字参数和位置参数之间使用独立的星号(*)分隔,星号后 ...
PyQt(Python+Qt)学习随笔：QListView的itemAlignment属性
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址 QListView的itemAlignment属性用于控制每个数据项的对齐方式,其类型为枚举类Qt. ...
java课堂作业--异常处理
一. 运行结果: 二. 结果: ArrayIndexOutOfBoundsException/内层try-catch 发生ArithmeticException 三. 结果: ArrayIndexOu ...
java中的反射（三）
目录一.反射 1.class类 2.访问字段 3.调用方法 4.调用构造方法 5.获取继承对象 6.动态代理二.sping中的反射本篇转自:https://depp.wang/2020/05/0 ...
Jquery返回顶部插件
自己jquery开发的返回顶部,当时只为了自己用一下,为了方便,修改成了插件... 自己的博客现在用的也是这个插件..使用方便!! <!DOCTYPE html> <html> ...
bootstrap table 嵌入百分比进度条
Json处理方式记录
1.可以直接使用Parse方法 JObject jObject = JObject.Parse(res); string mediaId = jObject["media_id"] ...
三方登录微博url接口
1.创建apps/oauth模块进行oauth认证 '''2.1 在apps文件夹下新建应用: oauth''' cd syl/apps python ../manage.py startapp oa ...

ES标签搜索并解决评分排序问题

一、概述

二、可行方案测试（以可行方案一为例）

ES标签搜索并解决评分排序问题的更多相关文章

随机推荐

热门专题