关于分析器

ES中默认使用的是标准分析器(standard analyzer)。如果需要对某个字段使用其他分析器,可以在映射中该字段下说明。例如:

PUT /my_index
{
"mappings": {
"blog": {
"properties": {
"title": {
"type": "string",
"fields": {
"english": {
"type": "string",
"analyzer": "english"
}
}
}
}
}
}
}

在上面:

title 字段使用 `standard`(标准)分析器。

title.english 子字段使用 `english`(英语)分析器。

关于自定义分析器

自定义分析器基于标准分析器(或其他ES已有的分析器),通过搭配字符过滤器、分词器和词单元过滤器,添加特定的配置,达到提高查询效果的作用。

1 字符过滤器

很多时候,我们需要处理的文本会是除了干净文本之外的任何文本。例如HTML文本直接进行分词会得到糟糕的效果。因此在分词之前整理文本会提升输出结果的质量。

HTML分词

业务不涉及,略

整理标点符号

可能也不需要。

2 分词器

standard 分词器使用 Unicode 文本分割算法。它是大多数语言分词的一个合理的起点,特别是西方语言。

3 词汇单元过滤器

值得注意的是,当使用多个过滤器,过滤器的先后顺序是有考究的。每一个语汇单元过滤器都可以处理来自上一个语汇单元过滤器输出的单词流。

3.1 归一化词元可以用的过滤器

PUT /my_index
{
"settings": {
"analysis": {
"analyzer": {
"folding": {
"tokenizer": "standard",
"filter": [ "lowercase", "asciifolding" ]
}
}
}
}
}

上面代码中为自定义分析器folding配置了两个过滤器lowercase过滤器和asciifolding过滤器。它们的具体功能,以及其他归一化词元过滤器将在下面一一介绍。

类似的,若需要配置其他过滤器,只需要在filter字段的列表中添加其他过滤器的名称。

lowercase过滤器

将接收的词元归一化为小写。

acciifolding过滤器

它不仅仅能去掉变音符号。如果文本是纯英语,不包含法语、德语啥的,也可以不考虑这个过滤器

3.2 词干提取器

3.2.1 基于算法的英文词干提取器

提供了一系列规则用于将一个词提取为它的词根形式,例如剥离复数词末尾的 ses 。提取单词词干时并不需要知道该词的任何信息。

词干弱提取 就是无法将同样意思的单词缩减为同一个词根。例如, jumpedjumps 可能被提取为 jump , 但是 jumping 可能被提取为 jumpi 。弱词干提取会导致搜索时无法返回相关文档。

词干过度提取 就是无法将不同含义的单词分开。例如, generalgenerate 可能都被提取为 gener 。 词干过度提取会降低精准度:不相干的文档会在不需要他们返回的时候返回。

DEMO:

# English分析器配置文件,配置文件展示如下:
{
"settings": {
"analysis": {
"filter": {
"english_stop": {
"type": "stop",
"stopwords": "_english_"
},
"english_keywords": {
"type": "keyword_marker",
"keywords": []
},
"english_stemmer": {
"type": "stemmer",
"language": "english"
},
"english_possessive_stemmer": {
"type": "stemmer",
"language": "possessive_english"
}
},
"analyzer": {
"english": {
"tokenizer": "standard",
"filter": [
"english_possessive_stemmer",
"lowercase",
"english_stop",
"english_keywords",
"english_stemmer"
]
}
}
}
}
} # keyword_marker 分词过滤器列出那些不用被词干提取的单词。这个过滤器默认情况下是一个空的列表。
# english 分析器使用了两个词干提取器: possessive_english 词干提取器和 english 词干提取器。
# 所有格词干提取器会在任何词传递到 english_stop 、 english_keywords 和 english_stemmer 之前去除 's 。

常见的基于算法的词干提取器

3.2.2 基于字典的英文词干提取器

只是简单地在字典里查找词。理论上可以给出比算法化词干提取器更好的结果,但,实践中一个好的算法词干提取器一般优于一个字典词干提取器。

3.3 停用词过滤器

停用词是什么

停用词是可以将日常使用频率较高而没有辨识度的词,例如:I, and, it等等。

过滤掉停用词的好处

过滤掉停用词的最主要好处是提高性能。如果我们不过滤掉停用词,当我们的检索词中包括停用词"the",如:“the oil field”,由于几乎所有文档都会包含“the”这个词,ES会为几乎所有文章进行评分,然后倒序排列,取Top N返回。相反,当我们使用停用词过滤器,“the”会被过滤,ES只会对匹配“oil”和“field”的文档进行评分、排序等。

如何在自定义分析器中启用停用词过滤器

标准分析器是不启用停用词过滤器的。我们可以自定义一个分析器my_analyzer,搭配使用标准分析器和停用词过滤器。

PUT /my_index
{
"settings": {
"analysis": {
"analyzer": {
"my_analyzer": {
"type": "standard",
"stopwords": [ "and", "the" ]
}
}
}
}
}

上面“stopwords”属性的值是一个包含两个停用词(“and”和“the”)的停用词列表。这个列表也可以替换成“_某语言_”的形式,来指定使用该语言在ES中默认的停用词表。如:

"stopwords":"_english_" 

我们也可以使用自定义停用词表。将自定义的停用词以一行一个单词的格式保存在文件中,此文件必须在集群的所有节点上,并且通过 stopwords_path 参数设置路径:

PUT /my_index
{
"settings": {
"analysis": {
"analyzer": {
"my_english": {
"type": "english",
"stopwords_path": "stopwords/english.txt" # 停用词文件的路径,该路径相对于 Elasticsearch 的 config 目录
}
}
}
}
}

  

Elasticsearch自定义分析器的更多相关文章

  1. ElasticSearch自定义分析器-集成结巴分词插件

    关于结巴分词 ElasticSearch 插件: https://github.com/huaban/elasticsearch-analysis-jieba 该插件由huaban开发.支持Elast ...

  2. Elasticsearch 自定义多个分析器

    分析器(Analyzer) Elasticsearch 无论是内置分析器还是自定义分析器,都由三部分组成:字符过滤器(Character Filters).分词器(Tokenizer).词元过滤器(T ...

  3. ES学习——分析器和自定义分析器

    简介 es在对文档进行倒排索引的需要用分析器(Analyzer)对文档进行分析.建立索引.从文档中提取词元(Token)的算法称为分词器(Tokenizer),在分词前预处理的算法称为字符过滤器(Ch ...

  4. ElasticSearch:分析器

    ElasticSearch入门 第七篇:分析器 这是ElasticSearch 2.4 版本系列的第七篇: ElasticSearch入门 第一篇:Windows下安装ElasticSearch El ...

  5. elasticsearch 自定义_id

    elasticsearch 自定义ID: curl -s -XPUT localhost:9200/web -d ' { "mappings": { "blog" ...

  6. Elasticsearch 自定义映射

    尽管在很多情况下基本域数据类型 已经够用,但你经常需要为单独域自定义映射 ,特别是字符串域.自定义映射允许你执行下面的操作: 全文字符串域和精确值字符串域的区别 使用特定语言分析器 优化域以适应部分匹 ...

  7. elasticsearch 自定义similarity 插件开发

    转自:http://www.chepoo.com/elasticsearch-similarity-custom-plug-in-development.html 在搜索开发中,我们要修改打分机制,就 ...

  8. elasticsearch自定义动态映射

    https://www.elastic.co/guide/cn/elasticsearch/guide/current/custom-dynamic-mapping.html如果你想在运行时增加新的字 ...

  9. ElasticSearch——自定义模板

    output中配置 elasticsearch{ action => "index" hosts => ["xxx"] index => &q ...

随机推荐

  1. 2017.9.28 web设计简单的购物车应用案例--session的简单应用

    该购物过程是在session范围内完成的,需要使用session对象实现信息的共享 (1)购买“肉类”商品的页面 <%@ page language="java" impor ...

  2. Spring常用配置 Scope

    Bean的Scope Scope描述的是Spring容器如何新建Bean的实例的.Spring的Scope有以下几种,通过@Scope注解来实现.    1.Singleton:一个Spring容器中 ...

  3. C#接口定义

    C#接口定义 C#不支持多重继承,但是客观世界出现多重继承的情况又比较多.为了避免传统的多重继承给程序带来的复杂性等问题,C# 提出了接口的概念.通过接口可以实现多重继承的功能.  继承该接口的类或结 ...

  4. caffe的输入

    决定将caffe分为几个部分进行总结,首先是第一部分,输入数据以及输入层. 首先从输入数据对BP的影响开始介绍. sgd的随机性 由于是sgd,因此样本一定要shuffle.BP中说到,样本选择遵循俩 ...

  5. SpringBoot学习10:springboot整合mybatis

    需求:通过使用 SpringBoot+SpringMVC+MyBatis 整合实现一个对数据库中的 t_user 表的 CRUD 的操作 1.创建maven项目,添加项目所需依赖 <!--spr ...

  6. 学习vue-cli3的项目搭建

    安装 关于旧版本 Vue CLI 的包名称由 vue-cli 改成了 @vue/cli. 如果你已经全局安装了旧版本的 vue-cli(1.x 或 2.x),你需要先通过 npm uninstall ...

  7. 第33题:LeetCode255 Verify Preorder Sequence in Binary Search Tree 验证先序遍历是否符合二叉搜索树

    题目 输入一个整数数组,判断该数组是不是某二叉搜索树的后序遍历的结果.如果是则输出Yes,否则输出No.假设输入的数组的任意两个数字都互不相同. 考点 1.BST 二叉搜索树 2.递归 思路 1.后序 ...

  8. Linux文件服务器实战(系统用户)

    ftp匿名用户设置完成之后任何人都可以访问服务器端文件,目录,甚至可以修改删除文件和目录,,那如何存放私密文件并保证文件或者目录专属于拥有者呢,就需要使用vsftp系统用户来实现了. 1.在linux ...

  9. Docker自学纪实(三)Docker容器数据持久化

    谈起数据卷 我一直觉得是个枯燥无聊的话题 但是通过今天的实操和阅读 我发现其实并不是 其实就像走夜路 没有光明,第一次都是恐惧 但是如果走的次数多了 或者静下心来去克制恐惧 也许就会驾轻就熟或者等到黎 ...

  10. javascript getBoundingClientRect()获取元素四个边相对于窗口或文档的位置

    Element.getBoundingClientRect()返回元素的大小及相对于窗口的位置 语法: rectObject=object.getBoundingClientRect(); 返回值是一 ...