ICU Analysis插件是一组将Lucene ICU模块集成到Elasticsearch中的库。本质上，ICU的目的是增加对Unicode和全球化的支持，以提供对亚洲语言更好的文本分割分析。从Elasticsearch的角度来看，此插件提供了文本分析中的新组件，如下表所示:

安装

我们可以首先到Elasticsearch的安装目录打入如下的命令：

    $ pwd

    /Users/liuxg/elastic/elasticsearch-7.3.0

    (base) localhost:elasticsearch-7.3.0 liuxg$ ./bin/elasticsearch-plugin list

    analysis-icu

    analysis-ik

    pinyin

上面显示我已经安装好了三个插件。上面的analysis-ik及pinyin都是为中文而准备的。

注意：如果你们在使用上面的elasticsearch-plug list命名出现如下的错误的话：

那么请使用如下的命令来删除在当前目录下的.DS_Store目录：

sudo find /Path/to/your/elasticsearch-folder -name ".DS_Store" -depth -exec rm {} \;

然后重新运行上面的命令就不会有问题了。

上面显示我已经安装好了。如果在你的电脑里没有安装好，可以使用如下的命令来进行安装：

./bin/elasticsearch-plugin install analysis-icu

上面的命令在Elasticsearch的安装目录里进行运行。等安装好后，我们需要重新启动Elasticsearch让它起作用。重新运行：

./bin/elasticsearch-plugin list

来检查analysis-icu是否已经被成功安装好了。

例子

等我们完全安装好了analysis_icu，那么，我们可以使用如下的例子在Kibana中来做一个实验：

    POST _analyze

    {

      "text": "我爱北京天安门",

      "analyzer": "icu_analyzer"

    }

那么显示的结果是：

上面显示，我们analysis可以正确地帮我们把中文词语安装中文的分词方法正确地进行分词。

我们可以和standard分词器来进行一个比较：

我们从上面可以看出来，在默认的情况下，icu_analyzer通常是一个及以上的字符的token，而standard的analyzer只有一个字符。

通过更改字符过滤器和token的方法和模式参数，ICU分析器可以具有多种自定义变量类型。下表描述了不同类型的ICU分析仪的组合：

让我们尝试nfkd_normalized分析器。遵循定义并在Kibana Dev Tools控制台中对其进行测试。响应显示在以下屏幕截图中。但是，由于使用nfkd_normalized分析器和icu_analyzer分析器，我们无法在结果中找到任何差异：

    POST _analyze

    {

      "text": "股市投资稳赚不赔必修课：如何做好仓位管理和情绪管理",

      "char_filter": [{"type": "icu_normalizer", "name": "nfkc", "mode":"decompose"}],

      "tokenizer": "icu_tokenizer"

    }

运行结果：

    {

      "tokens" : [

        {

          "token" : "股市",

          "start_offset" : 0,

          "end_offset" : 2,

          "type" : "<IDEOGRAPHIC>",

          "position" : 0

        },

        {

          "token" : "投资",

          "start_offset" : 2,

          "end_offset" : 4,

          "type" : "<IDEOGRAPHIC>",

          "position" : 1

        },

        {

          "token" : "稳赚",

          "start_offset" : 4,

          "end_offset" : 6,

          "type" : "<IDEOGRAPHIC>",

          "position" : 2

        },

        {

          "token" : "不",

          "start_offset" : 6,

          "end_offset" : 7,

          "type" : "<IDEOGRAPHIC>",

          "position" : 3

        },

        {

          "token" : "赔",

          "start_offset" : 7,

          "end_offset" : 8,

          "type" : "<IDEOGRAPHIC>",

          "position" : 4

        },

        {

          "token" : "必修",

          "start_offset" : 8,

          "end_offset" : 10,

          "type" : "<IDEOGRAPHIC>",

          "position" : 5

        },

        {

          "token" : "课",

          "start_offset" : 10,

          "end_offset" : 11,

          "type" : "<IDEOGRAPHIC>",

          "position" : 6

        },

        {

          "token" : "如何",

          "start_offset" : 12,

          "end_offset" : 14,

          "type" : "<IDEOGRAPHIC>",

          "position" : 7

        },

        {

          "token" : "做好",

          "start_offset" : 14,

          "end_offset" : 16,

          "type" : "<IDEOGRAPHIC>",

          "position" : 8

        },

        {

          "token" : "仓",

          "start_offset" : 16,

          "end_offset" : 17,

          "type" : "<IDEOGRAPHIC>",

          "position" : 9

        },

        {

          "token" : "位",

          "start_offset" : 17,

          "end_offset" : 18,

          "type" : "<IDEOGRAPHIC>",

          "position" : 10

        },

        {

          "token" : "管理",

          "start_offset" : 18,

          "end_offset" : 20,

          "type" : "<IDEOGRAPHIC>",

          "position" : 11

        },

        {

          "token" : "和",

          "start_offset" : 20,

          "end_offset" : 21,

          "type" : "<IDEOGRAPHIC>",

          "position" : 12

        },

        {

          "token" : "情绪",

          "start_offset" : 21,

          "end_offset" : 23,

          "type" : "<IDEOGRAPHIC>",

          "position" : 13

        },

        {

          "token" : "管理",

          "start_offset" : 23,

          "end_offset" : 25,

          "type" : "<IDEOGRAPHIC>",

          "position" : 14

        }

      ]

    }

要使用新定义的分析器，我们必须在Index setting中对其进行定义。请参阅我之前的文章“Elasticsearch: analyzer”。

Elasticsearch：ICU分词器介绍的更多相关文章

Elasticsearch之分词器的作用
前提什么是倒排索引? Analyzer(分词器)的作用是把一段文本中的词按一定规则进行切分.对应的是Analyzer类,这是一个抽象类,切分词的具体规则是由子类实现的,所以对于不同的语言,要用不同的 ...
Elasticsearch之分词器的工作流程
前提什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch的分词器的一般工作流程: 1.切分关键词 2.去除停用词 3.对于英文单词,把所有字母转为小写(搜索时不区分 ...
elasticsearch kibana + 分词器安装详细步骤
elasticsearch kibana + 分词器安装详细步骤一.准备环境系统:Centos7 JDK安装包:jdk-8u191-linux-x64.tar.gz ES安装包:elasticse ...
Elasticsearch修改分词器以及自定义分词器
Elasticsearch修改分词器以及自定义分词器参考博客:https://blog.csdn.net/shuimofengyang/article/details/88973597
elasticsearch中文分词器ik-analyzer安装
前面我们介绍了Centos安装elasticsearch 6.4.2 教程,elasticsearch内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,别急,已经有大拿把中文分词器做好了, ...
elasticsearch 分析器分词器
参考:https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-tokenizers.html 在全文搜索(Fu ...
Es学习第五课，分词器介绍和中文分词器配置
上课我们介绍了倒排索引,在里面提到了分词的概念,分词器就是用来分词的. 分词器是ES中专门处理分词的组件,英文为Analyzer,定义为:从一串文本中切分出一个一个的词条,并对每个词条进行标准化.它由 ...
SpringBoot整合Elasticsearch+ik分词器+kibana
话不多说直接开整首先是版本对应,SpringBoot和ES之间的版本必须要按照官方给的对照表进行安装,最新版本对照表如下: (官网链接:https://docs.spring.io/spring-d ...
ES 09 - 定制Elasticsearch的分词器 (自定义分词策略)
目录 1 索引的分析 1.1 分析器的组成 1.2 倒排索引的核心原理-normalization 2 ES的默认分词器 3 修改分词器 4 定制分词器 4.1 向索引中添加自定义的分词器 4.2 测 ...

随机推荐

ClickHouse(04)如何搭建ClickHouse集群
ClickHouse集群的搭建和部署和单机的部署是类似的,主要在于配置的不一致,如果需要了解ClickHouse单机的安装设部署,可以看看这篇文章,ClickHouse(03)ClickHouse怎么 ...
2022-07-12 第六组润土 JavaScript02学习笔记
1.循环语句 for循环: for(let i=0;i<10;i++){循环体} while循环: while(i<10){循环体}: do... while...循环: do{循环体}w ...
Note -「模拟退火」
随机化算法属于省选芝士体系 0x01 前置芝士你只需要会 rand 就可以啦! 当然如果你想理解的更透彻也可以先看看爬山算法 0x02 关于退火退火是一种金属热处理工艺,指的是将金属缓慢加热到一 ...
idea的使用技巧和必要的设置
idea 如何开启多个线程打开下面按钮,然后运行相同的代码即可打开idea需要选择打开哪一个项目 * 设置如下,关闭下面选项即可
重写并自定义依赖的原生的Bean方法
转载请注明出处: 在项目开发过程中,往往是直接应用很多jar包中依赖且声明好的Bean,拿来即用,但很多场景也需要对这些原生的Bean 进行自定义,定制化封装,这样在项目使用的过程中,可以使用自定义的 ...
轻盈潇洒卓然不群，敏捷编辑器Sublime text 4中文配置Python3开发运行代码环境(Win11+M1 mac)
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_210 20世纪初,几乎所有的飞机都是并列双翼结构,此时,美国著名飞行大亨霍华德·休斯认为自己的飞机不够快,助手委婉地提醒他,如果速 ...
PerfView专题 (第一篇)：如何寻找热点函数
一:背景准备开个系列来聊一下 PerfView 这款工具,熟悉我的朋友都知道我喜欢用 WinDbg,这东西虽然很牛,但也不是万能的,也有一些场景他解决不了或者很难解决,这时候借助一些其他的工具来辅助 ...
NC20273 [SCOI2009]粉刷匠
题目链接题目题目描述 windy有 N 条木板需要被粉刷. 每条木板被分为 M 个格子. 每个格子要被刷成红色或蓝色. windy每次粉刷,只能选择一条木板上一段连续的格子,然后涂上一种颜色. 每 ...
Iterator与Generator
Iterator Iterator 概念 Iterator 提供了一种统一的接口机制,为各种不同数据结构提供统一的访问机制.定义 Iterator 就是提供一个具有 next() 方法的对象,每次调用 ...
基础2：js创建对象的多种方式
js创建对象的多种方式 1. 工厂模式 function createPerson(name) { var o = new Object() 0.name = name return o } var ...

Elasticsearch：ICU分词器介绍

安装

例子

Elasticsearch：ICU分词器介绍的更多相关文章

随机推荐

热门专题