es ik分词分不出单词a

2024-11-04

es学习(三)：分词器介绍以及中文分词器ik的安装与使用

什么是分词把文本转换为一个个的单词,分词称之为analysis.es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体. 示例 POST http://192.168.247.8:9200/_analyze { "analyzer":"standard", "text":"good good study" } # 返回 { "tokens": [ { "token":

es ik分词插件安装

1.ik下载(下载es对应版本的ik分词包) https://github.com/medcl/elasticsearch-analysis-ik/releases 2.mac cd /usr/local/Cellar/elasticsearch/6.6.1/libexec/plugins mkdir ik 将下载的包解压到ik目录下 3.重启es 测试 postman

match查询会将查询词分词,然后对分词的结果进行term查询. 然后默认是将每个分词term查询之后的结果求交集,所以只要分词的结果能够命中,某条数据就可以被查询出来,而分词是在新建索引时指定的,只有text类型的数据才能设置分词策略. 新建索引,并指定分词策略: PUT mail_test3 { "settings": { "index": { "refresh_interval": "30s", "number

es ik 分词 5.x后，设置默认分词

1.使用模板方式,设置默认分词注: 设置模板,需要重新导入数据,才生效通过模板设置全局默认分词器 curl -XDELETE http://localhost:9200/_template/rtf curl -XPUT http://localhost:9200/ _template/rtf -d' { "template": "*", "settings": { "number_of_shards": 1 }, &quo

ElasticSearch ik分词安装

1.下载对应版本的ES ik分词 https://github.com/medcl/elasticsearch-analysis-ik/releases 2.解压elasticsearch-analysis-ik-master.zip unzip elasticsearch-analysis-ik-master.zip 3.进入elasticsearch-analysis-ik-master,编译源码 cd elasticsearch-analysis-ik-master mvn clean

es之IK分词器

1:默认的分析器-- standard 使用默认的分词器 curl -XGET 'http://hadoop01:9200/_analyze?pretty&analyzer=standard' -d '我爱中国'curl -XGET 'http://hadoop01:9200/_analyze?pretty&analyzer=simple' -d '我爱中国' 这就是默认的分词器,但是默认的分析器有时候在生产环境会出现问题,比如: curl -XPUT 'http://hadoop01:

ES系列一、CentOS7安装ES 6.3.1、集成IK分词器

Elasticsearch 6.3.1 地址: wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.3.1.tar.gz 2.安装配置 1.拷贝拷贝到服务器上,解压:tar -xvzf elasticsearch-6.3.1.tar.gz .解压后路径:/home/elasticsearch-6.3.1 3.创建用户创建用户,创建esdata目录,并赋予权限 [root@bogon home]#

ES 1.7安装ik分词elasticsearch-analysis-ik-1.2.5

IK简介 https://www.cnblogs.com/yjf512/p/4789239.html https://www.cnblogs.com/xing901022/p/5910139.html https://blog.csdn.net/hyx1990/article/details/52892032 https://blog.csdn.net/hyx1990/article/category/6462597 https://yq.aliyun.com/articles/6786 IK

安装ik分词器以及版本和ES版本的兼容性

一.查看自己ES的版本号与之对应的IK分词器版本 https://github.com/medcl/elasticsearch-analysis-ik/blob/master/README.md 二.下载与之对应的版本 https://github.com/medcl/elasticsearch-analysis-ik/releases 三.进入到logstash的安装目录 plugins下,创建ik文件夹然后把下载好的ik分词器解压到ik文件夹下就ok了

Elasticsearch使用系列-ES增删查改基本操作+ik分词

Elasticsearch使用系列-ES简介和环境搭建 Elasticsearch使用系列-ES增删查改基本操作+ik分词一.安装可视化工具Kibana ES是一个NoSql数据库应用.和其他数据库一样,我们为了方便操作查看它,需要安装一个可视化工具 Kibana. 官网:https://www.elastic.co/cn/downloads/kibana 和前面安装ES一样,选中对应的环境下载,这里选择windows环境,注意安装的版本一定要和ES的版本一致,不然可能会启动不起来. 解压后进

ES之一：Elasticsearch6.4 windows安装 head插件ik分词插件安装

准备安装目标:1.Elasticsearch6.42.head插件3.ik分词插件第一步:安装Elasticsearch6.4 下载方式:1.官网下载 https://www.elastic.co/downloads/elasticsearch2.百度网盘下载:https://pan.baidu.com/s/1WcoaXiAY1I-9VP9dGNCiCQ 下载完毕后,解压进入bin目录,启动 elasticsearch.bat启动完毕后,访问http://localhost:9200/出现如

[ES]elasticsearch章5　ES的分词（二）

Elasticsearch 中文搜索时遇到几个问题: 当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”,搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个问题,既保证覆盖度又保证准确度? 搜索“RMB”时只会匹配到包含“RMB”关键词的内容,实际上,“RMB”和“人民币”是同义词,我们希望用户搜索“RMB”和“人民币”可以相互匹配,ES同义词怎么配置?

ElasticSearch已经配置好ik分词和mmseg分词(转)

ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎.设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便.支持通过HTTP使用JSON进行数据索引. 官方站点:http://www.elasticsearch.com/ 中文站点:http://es-cn.medcl.net/ 1.安装必须先安装Java环境,并设置 JAVA_HOME => C:\Program Files\Java\jdk1.6.0_18 elasticsea

ES中文分词器之精确短语匹配（解决了match_phrase匹配不全的问题）

分词器选择调研了几种分词器,例如IK分词器,ansj分词器,mmseg分词器,发现IK的分词效果最好.举个例子: 词:<<是的>><span>哈<\span>撒多撒ئۇيغۇر تىلى王者荣耀sdsd@4342啊啊啊 Standard: 是,的,span,哈,span,撒,多,撒,ئۇيغۇر,تىلى,王,者,荣,耀,sdsd,4342,啊,啊,啊,啊 mmseg_maxword:是,的,span,哈,span,撒,多,撒,ئ,ۇ,ي,غ,ۇ,ر,ت,

elasticsearch ik分词

elasticsearch 默认并不支持中文分词,默认将每个中文字切分为一个词,这明显不符合我们的业务要求.这里就需要用到ik分词插件. 本文主要囊括了以下几部分,ik插件安装.ik用法介绍.自定义词典使用 ik插件安装查找并下载对应elasticsearch版本的ik,解压编写Dockerfile 运行测试 $docker-compose up -d 新增ik插件功能配置实际上非常简单,仅需将解压后的elasticsearch-analysis-ik文件放置到es/plugins路径下即可

IK分词器原理分析源码解析

IK分词器在是一款基于词典和规则的中文分词器.本文讲解的IK分词器是独立于elasticsearch.Lucene.solr,可以直接用在java代码中的部分.关于如何开发es分词插件,后续会有文章介绍. IK分词器的源码:Google Code,直接下载请点击这里. 一.两种分词模式 IK提供两种分词模式:智能模式和细粒度模式(智能:对应es的IK插件的ik_smart,细粒度:对应es的IK插件的ik_max_word). 先看两种分词模式的demo和效果 import org.wlte

Elasticsearch学习系列一（部署和配置IK分词器）

Elasticsearch简介 Elasticsearch是什么? Elaticsearch简称为ES,是一个开源的可扩展的分布式的全文检索引擎,它可以近乎实时的存储.检索数据.本身扩展性很好,可扩展到上百台服务器,处理PB级别的数据.ES使用Java开发并使用Lucene作为其核心来实现索引和搜索的功能,但是它通过简单的RestfulAPI和javaAPI来隐藏Lucene的复杂性,从而让全文搜索变得简单. 起源:Shay Banon.2004年失业,陪老婆去伦敦学习厨师.失业在家帮老婆写一个

如何开发自己的搜索帝国之安装ik分词器

Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词,我是中国人不能简单的分成一个个字,我们更希望 “中国人”,“中国”,“我”这样的分词,这样我们就需要安装中文分词插件,ik就是实现这个功能的. elasticsearch-analysis-ik 是一款中文的分词插件,支持自定义词库. 现在开始安装ik分词器,安装之前,先说明一些变化: 之前可以在node节点上配置index默认的分词器,如果是多节点,那么在每个节点上都配置就行了.这个有点不灵活,

Elasticsearch实践（四）：IK分词

环境:Elasticsearch 6.2.4 + Kibana 6.2.4 + ik 6.2.4 Elasticsearch默认也能对中文进行分词. 我们先来看看自带的中文分词效果: curl -XGET "http://localhost:9200/_analyze" -H 'Content-Type: application/json;' -d '{"analyzer": "default","text": "今

Elasticsearch拼音分词和IK分词的安装及使用

一.Es插件配置及下载 1.IK分词器的下载安装关于IK分词器的介绍不再多少,一言以蔽之,IK分词是目前使用非常广泛分词效果比较好的中文分词器.做ES开发的,中文分词十有八九使用的都是IK分词器. 下载地址:https://github.com/medcl/elasticsearch-analysis-ik 2.pinyin分词器的下载安装可以在淘宝.京东的搜索框中输入pinyin就能查找到自己想要的结果,这就是拼音分词,拼音分词则是将中文分析成拼音格式,可以通过拼音分词分析出来的数据进行查

Elasticsearch拼音和ik分词器的结合应用

一.创建索引时,自定义拼音分词和ik分词 PUT /my_index { "index": { "analysis": { "analyzer": { "ik_pinyin_analyzer": { 自定义分词name "type": "custom", "tokenizer": "ik_smart", "filter": [&