ElasticSearch第三步-中文分词

ElasticSearch系列学习

elasticsearch官方只提供smartcn这个中文分词插件，效果不是很好，好在国内有medcl大神（国内最早研究es的人之一）写的两个中文分词插件，一个是ik的，一个是mmseg的，下面分别介绍ik的用法，

当我们创建一个index（库db_news）时，easticsearch默认提供的分词器db_news，分词结果会把每个汉字分开，而不是我们想要的根据关键词来分词。例如：

代码如下：

GET /db_news/_analyze?analyzer=standard

{

    我爱北京天安门

}

分词结果如下：

{

   "tokens": [

      {

         "token": "我",

         "start_offset": 6,

         "end_offset": 7,

         "type": "<IDEOGRAPHIC>",

         "position": 1

      },

      {

         "token": "爱",

         "start_offset": 7,

         "end_offset": 8,

         "type": "<IDEOGRAPHIC>",

         "position": 2

      },

      {

         "token": "北",

         "start_offset": 8,

         "end_offset": 9,

         "type": "<IDEOGRAPHIC>",

         "position": 3

      },

      {

         "token": "京",

         "start_offset": 9,

         "end_offset": 10,

         "type": "<IDEOGRAPHIC>",

         "position": 4

      },

      {

         "token": "天",

         "start_offset": 10,

         "end_offset": 11,

         "type": "<IDEOGRAPHIC>",

         "position": 5

      },

      {

         "token": "安",

         "start_offset": 11,

         "end_offset": 12,

         "type": "<IDEOGRAPHIC>",

         "position": 6

      },

      {

         "token": "门",

         "start_offset": 12,

         "end_offset": 13,

         "type": "<IDEOGRAPHIC>",

         "position": 7

      }

   ]

}

正常情况下，这不是我们想要的结果，比如我们更希望 “我”，“爱”，“北京”，"天安门"这样的分词，这样我们就需要安装中文分词插件，ik就是实现这个功能的。

安装ik插件

第一种方式是直接下载配置，这种方式比较麻烦(对于Windows用户来讲)，这里我也不讲了

下载地址：https://github.com/medcl/elasticsearch-analysis-ik

********************************************************************************************

第二种方式是直接下载elasticsearch中文发行版。下载地址是：https://github.com/medcl/elasticsearch-rtf。重新运行安装。

执行命令：

GET /db_news/_analyze?analyzer=ik

{

    我爱北京天安门啊王军华

}

结果如下：

{

   "tokens": [

      {

         "token": "我",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_CHAR",

         "position":

      },

      {

         "token": "爱",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_CHAR",

         "position":

      },

      {

         "token": "北京",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_WORD",

         "position":

      },

      {

         "token": "天安门",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_WORD",

         "position":

      },

      {

         "token": "啊",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_CHAR",

         "position":

      },

      {

         "token": "王军",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_WORD",

         "position":

      },

      {

         "token": "华",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_CHAR",

         "position":

      }

   ]

}

关于分词器定义需要注意的地方

如果我们直接创建索引库，会使用默认的分词进行分词，这不是我们想要的结果。这个时候我们再去更改分词器会报错如下：

{

   "error": "IndexAlreadyExistsException[[db_news] already exists]",

   "status":

}

而且没有办法解决冲突，唯一的办法是删除已经存在的索引，新建一个索引，并制定mapping使用新的分词器（注意要在数据插入之前，否则会使用elasticsearch默认的分词器）。

新建索引命令如下：

PUT /db_news

{

     "settings" : {

        "analysis" : {

            "analyzer" : {

                "stem" : {

                    "tokenizer" : "standard",

                    "filter" : ["standard", "lowercase", "stop", "porter_stem"]

                }

            }

        }

    },

    "mappings" : {

        "person" : {

            "dynamic" : true,

            "properties" : {

                "intro" : {

                    "type" : "string",
                    "indexAnalyzer" : "ik",
                    "searchAnalyzer":"ik"

查看新建的索引：

GET /db_news/_mapping

结果如下：

{

   "db_news": {

      "mappings": {

         "person": {

            "dynamic": "true",

            "properties": {

               "age": {

                  "type": "long"

               },

               "intro": {

                  "type": "string",

                  "analyzer": "ik"

               },

               "name": {

                  "type": "string"

               }

            }

         }

      }

   }

}

更新映射

说明：对于db_news/news，开始没有字段msgs，后来添加了这个字段，那么要先修改索引方式，在新增数据

PUT /db_news/_mapping/news

{

            "properties" : {

                "msgs" : {

                    "type" : "string",

                    "indexAnalyzer" : "ik",

                    "searchAnalyzer":"ik"

                }

    }

}

ElasticSearch系列学习

ElasticSearch第一步-环境配置

ElasticSearch第二步-CRUD之Sense

ElasticSearch第三步-中文分词

ElasticSearch第四步-查询详解

ElasticSearch第五步-.net平台下c#操作ElasticSearch详解

ElasticSearch第三步-中文分词的更多相关文章

ElasticSearch搜索引擎安装配置中文分词器IK插件
近几篇ElasticSearch系列: 1.阿里云服务器Linux系统安装配置ElasticSearch搜索引擎 2.Linux系统中ElasticSearch搜索引擎安装配置Head插件 3.Ela ...
ElasticSearch简介（三）——中文分词
很多时候,我们需要在ElasticSearch中启用中文分词,本文这里简单的介绍一下方法.首先安装中文分词插件.这里使用的是 ik,也可以考虑其他插件(比如 smartcn). $ ./bin/ela ...
Elasticsearch是一个分布式可扩展的实时搜索和分析引擎,elasticsearch安装配置及中文分词
http://fuxiaopang.gitbooks.io/learnelasticsearch/content/ (中文) 在Elasticsearch中,文档术语一种类型(type),各种各样的 ...
elastic-search单机部署以及中文分词IKAnalyzer安装
前提条件 elasticsearch使用版本5.6.3,需要jdk版本1.8,低于该版本不能使用下载 https://artifacts.elastic.co/downloads/elasticse ...
Elasticsearch笔记六之中文分词器及自定义分词器
中文分词器在lunix下执行下列命令,可以看到本来应该按照中文"北京大学"来查询结果es将其分拆为"北","京","大" ...
elasticsearch插件安装之--中文分词器 ik 安装
/** * 系统环境: vm12 下的centos 7.2 * 当前安装版本: elasticsearch-2.4.0.tar.gz */ ElasticSearch中内置了许多分词器, standa ...
ElasticSearch速学 - IK中文分词器远程字典设置
前面已经对”IK中文分词器“有了简单的了解: 但是可以发现不是对所有的词都能很好的区分,比如: 逼格这个词就没有分出来. 词库实际上IK分词器也是根据一些词库来进行分词的,我们可以丰富这个词库. ...
IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量
转自:http://lies-joker.iteye.com/blog/2173086 选手:IKanalyzer.ansj_seg.jcseg 硬件:i5-3470 3.2GHz 8GB win7 ...
Lucene基础（三）-- 中文分词及高亮显示
Lucene分词器及高亮分词器在lucene中我们按照分词方式把文档进行索引,不同的分词器索引的效果不太一样,之前的例子使用的都是标准分词器,对于英文的效果很好,但是中文分词效果就不怎么样,他会按 ...

随机推荐

使用webfont为easyui扩充图标
目前回到pc端开发,开始用了easyui这个框架.重拾easyui后感觉这个框架用的很多技术太古老,页面风格也太控件化.单从图标一项来说吧,这种花花绿绿的图标用户一看都傻了眼,同时整个框架就提供了那么 ...
Linux 解决数量庞大wildfly容器启动与停止的脚本
一.问题因公司业务的发展,后台架构的变更,导致测试环境(Linux)部署与管理困难成倍增长,duang的一下,增加N倍.进入正题说问题: 问题1. 测试环境包含普通用户环境.开发者用户环境,原来只 ...
.Net语言 APP开发平台——Smobiler学习日志：快速实现手机上的图片上传功能
最前面的话:Smobiler是一个在VS环境中使用.Net语言来开发APP的开发平台,也许比Xamarin更方便一.目标样式我们要实现上图中的效果,需要如下的操作: 1.从工具栏上的"S ...
webParts与Web部件
web部件是ASP.NET WebForm里面的服务器控件,它涵盖的内容比较多,鉴于这种状况的话鄙人不打算深究下去了,只是局限于了解web.config配置里面的配置内容则可. 那么也得稍微说说啥是W ...
HTML5简介
HTML5简介 HTML5是HTML的最新修订标准.2014年10月29日,万维网联盟(W3C)宣布,经过8年的努力,HTML5标准规范制定完成. HTML5的设计目的是在移动设备上使用多媒体. HT ...
poj1698--最大流(Dinic)
题目大意: 爱丽丝要拍电影,有n部电影,规定爱丽丝每天只能拍一部电影,每部电影在每个礼拜只有固定的几天可以拍电影,只可以拍前面w个礼拜,并且这部电影要拍d天,问爱丽丝能不能拍完所有的电影. 思路: 建 ...
Be a new gentlemen
学好技术的同时,更要注重自身素养的提升! 一 .有则改之,无责加冕 1.女士优先 2. 不随地吐痰, 不乱扔垃圾, 不在人群中抽烟 3. 不大声喧哗 4. 不插队,碰到别人要说抱歉 5. 不在公共交 ...
django+mysql学习笔记
这段时间在学习mysql+django的知识点.借此记录以下学习过程遇到的坑以及心得. 使用的工具是navicat for mysql python 2.7.12 mysql-python 1.2.3 ...
GJM: 设计模式 - 模板方法模式（Template Method）
生活中的模板一.在银行办理业务 Step1:进门取号 Step2:填写单据 Step3:等待叫号 Step4:窗口办理二.奥运会开幕式第一步:升国旗奏国歌第二步:领导人致辞讲话第三部: 文艺 ...
用C#从数据库动态生成AdminLTE菜单的一种方法
当前的应用设计风格趋于Flat扁平化,很多基于BootStrap实现了很多UI非常漂亮的管理界面(Bootstrap admin template). 此核心文件开源在Github:https://g ...

ElasticSearch第三步-中文分词

ElasticSearch第三步-中文分词的更多相关文章

随机推荐

热门专题