ik解析器

1. ik解析器

The IK Analysis plugin integrates Lucene IK analyzer (http://code.google.com/p/ik-analyzer/) into elasticsearch, support customized dictionary.

Analyzer: ik_smart , ik_max_word , Tokenizer: ik_smart , ik_max_word

说明文档：https://github.com/medcl/elasticsearch-analysis-ik

1.1. 下载及安装配置

发布页https://github.com/medcl/elasticsearch-analysis-ik/releases

找到对应版本，这里是7.3.1，下载；

cd your-es-root/plugins/ && mkdir ik # 创建目录ik

unzip plugin to folder your-es-root/plugins/ik # 解压到ik

安装

解压到ik目录下即可

测试

rv = es.cat.plugins(v=True)

pr(rv)

name component version

** analysis-ik 7.3.1

2. 测试分词效果

代码

# 分词

def test1():

#测试ik分词效果

d3 = {

"text":"世界是可以被认识的，认识是一个辩证发展的过程。"

,"analyzer":"standard"

}

# 分词器

ana = ["standard", "ik_smart", "ik_max_word"]

for _ in ana:

d3["analyzer"] = _

rv = es.indices.analyze(body=d3, format="text")

print(_+" 分词结果：", [x["token"] for x in rv["tokens"]]) # d1 分词结果

test1()

结果：

standard 分词结果： ['世', '界', '是', '可', '以', '被', '认', '识', '的', '认', '识', '是', '一', '个', '辩', '证', '发', '展', '的', '过', '程']

ik_smart 分词结果： ['世界', '是', '可以', '被', '认识', '的', '认识', '是', '一个', '辩证', '发展', '的', '过程']

ik_max_word 分词结果： ['世界', '是', '可以', '被', '认识', '的', '认识', '是', '一个', '一', '个', '辩证', '发展', '的', '过程']

elasticsearch ik解析器的更多相关文章

Elasticsearch IK分词器
Elasticsearch-IK分词器一.简介因为Elasticsearch中默认的标准分词器(analyze)对中文分词不是很友好,会将中文词语拆分成一个一个中文的汉字,所以引入中文分词器-IK ...
SpringBoot整合Elasticsearch+ik分词器+kibana
话不多说直接开整首先是版本对应,SpringBoot和ES之间的版本必须要按照官方给的对照表进行安装,最新版本对照表如下: (官网链接:https://docs.spring.io/spring-d ...
七、Elasticsearch+elasticsearch-head的安装+Kibana环境搭建+ik分词器安装
一.安装JDK1.8 二.安装ES 三个节点:master.slave01.slave02 1.这里下载的是elasticsearch-6.3.1.rpm版本包 https://www.elastic ...
IK 分词器
目录 IK 分词器-介绍 IK 分词器-安装环境准备:Maven 安装 IK 分词器 IK 分词器-使用 IK 分词器-介绍现有问题:ES 默认对中文分词并不友好,实际上是把中文进行了每个字的分词 ...
Linux下,非Docker启动Elasticsearch 6.3.0,安装ik分词器插件,以及使用Kibana测试Elasticsearch,
Linux下,非Docker启动Elasticsearch 6.3.0 查看java版本,需要1.8版本 java -version yum -y install java 创建用户,因为elasti ...
聊聊 elasticsearch 之分词器配置 (IK+pinyin)
系统:windows 10 elasticsearch版本:5.6.9 es分词的选择使用es是考虑服务的性能调优,通过读写分离的方式降低频繁访问数据库的压力,至于分词的选择考虑主要是根据目前比较流 ...
Elasticsearch学习系列一（部署和配置IK分词器）
Elasticsearch简介 Elasticsearch是什么? Elaticsearch简称为ES,是一个开源的可扩展的分布式的全文检索引擎,它可以近乎实时的存储.检索数据.本身扩展性很好,可扩展 ...
Elasticsearch入门之从零开始安装ik分词器
起因需要在ES中使用聚合进行统计分析,但是聚合字段值为中文,ES的默认分词器对于中文支持非常不友好:会把完整的中文词语拆分为一系列独立的汉字进行聚合,显然这并不是我的初衷.我们来看个实例: POST ...
docker上安装elasticsearch和ik分词器插件和header，实现分词功能
docker run -di --name=tensquare_es -p 9200: -p 9300:9300 elasticsearch:5.6.8 创建elasticsearch容器(如果版本不 ...

随机推荐

gradle-技能保存
gradle编译java springboot,指定使用哪个环境配置文件首先在build.gradle里面声明一个变量 def profileName = project.hasProperty(& ...
[MC] 我的世界 craftbukkit-1.12.2 卡爆
昨天晚上的时候,和朋友玩我的世界结果我这边卡爆了,牛圈里面的牛都是一动一动的... 然后我登陆服务器,发现CPU爆炸了... 100%的使用率 mstsc都卡爆了内存占用了800多MB (服务器是 ...
update_jz首项V5.0-Tutorial
What's New: 增加了4个对话框,用于展示信息.归并条目.剔除条目增加了可视化统计图形中每个科室(柱形)的统计总数可视化图形一些颜色调整(无奈在省份很多的条件下一些颜色还不易区分) 下面是 ...
Vue实例动态组件实现选项卡
动态组件选项卡有n种实现方法哈哈哈哈 <style> #app{ width: 260px; height: 200px; background: #fff; box-shadow: ...
PostGreSql - 提取jsonb数据
本文主要介绍如何在PostGreSql中提取出jsonb类型字段中的某个key的值参考:https://www.cnblogs.com/mywebnumber/p/5551092.html 一.简单 ...
Codeforces Round #598 (Div. 3) C. Platforms Jumping
There is a river of width nn. The left bank of the river is cell 00 and the right bank is cell n+1n+ ...
bootstrap的网格控制
<div class="container-fluid row m-0 p-0"> <div class="col-2 border"> ...
linux搭建常用命令
nohup java -jar floodlight.jar >log.txt 运行jar,日志打印到log.txt中netstat -lnp|grep 88 查看 ...
Caffe 笔记（一）caffe的层与数据结构
Caffe是纯粹的C++/CUDA架构,支持命令行.Python和MATLAB接口:可以在CPU和GPU直接无缝切换: Caffe::set_mode(Caffe::GPU); Caffe的优势 1. ...
Linux - paste
1. 概述引入碰到一个场景, 需要将两列合并成一列 vim 的 ex 貌似不太好做这个事如果两列在一行里, ex 是可以做的但问题就是, 两列不在一行里... sed 和 awk 应该是可以做 ...

elasticsearch ik解析器

1. ik解析器

1.1. 下载及安装配置

2. 测试分词效果

elasticsearch ik解析器的更多相关文章

随机推荐

热门专题