028 ElasticSearch----全文检索技术03---基础知识详解01-IK分词器和映射

1.IK分词器

(1)安装

使用IK分词器可以实现对中文分词的效果。
下载IK分词器：（Github地址：https://github.com/medcl/elasticsearch-analysis-ik）

下载zip，并将解压的文件拷贝到ES安装目录的plugins下的ik目录下(注意：ik的版本必须与elasticSearch一样)

然后重启elasticsearch：

测试分词效果：
发送：post localhost:9200/_analyze
{"text":"测试分词器，后边是测试内容：spring cloud实战","analyzer":"ik_max_word" }

(2)两种分词方式

ik分词器有两种分词模式：ik_max_word和ik_smart模式。
<1>ik_max_word
会将文本做最细粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、
华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。
<2>ik_smart
会做最粗粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。

(3)自定义词库

如果要让分词器支持一些专有词语，可以自定义词库。
iK分词器自带一个main.dic的文件，此文件为词库文件。

在上边的目录中新建一个my.dic文件（注意文件格式为utf-8（不要选择utf-8 BOM，使用editplus编辑文件，不要使用自带txt文件编辑器）
可以在其中自定义词汇：
比如定义：
配置文件中配置my.dic，

重启ES，测试分词效果：
发送：post localhost:9200/_analyze
{"text":"测试分词器，后边是测试内容：spring cloud实战","analyzer":"ik_max_word" }

2.映射

(1)映射维护方法

<1>查询所有索引的映射：
GET： http://localhost:9200/_mapping

<2>创建映射
post 请求：http://localhost:9200/lucky/doc/_mapping

<3>更新映射
映射创建成功可以添加新字段，已有字段不允许更新。
<4>删除映射
通过删除索引来删除映射。

(2)常用映射类型

下图是ES6.2核心的字段类型如下：

<1>text文本字段

字符串包括text和keyword两种类型：

text

　　　　1）analyzer
　　　　通过analyzer属性指定分词器。
　　　下边指定name的字段类型为text，使用ik分词器的ik_max_word分词模式。

"name": {

"type": "text",

"analyzer":"ik_max_word"

}

上边指定了analyzer是指在索引(分词的过程)和搜索都使用ik_max_word，如果单独想定义搜索时使用的分词器则可以通过search_analyzer属性。
对于ik分词器建议是索引时使用ik_max_word将搜索内容进行细粒度分词，搜索时使用ik_smart进行粗粒度分词，提高搜索精确性。

"name": {

"type": "text",

"analyzer":"ik_max_word",

"search_analyzer":"ik_smart"

}

　　　　2）index
　　　　　　通过index属性指定是否索引(即通过设置index属性，来指定是否进行分词)。注意：索引为了搜索，搜索必须分词。
　　　　　　默认为index=true，即要进行索引，只有进行索引才可以从索引库搜索到。
　　　　　　但是也有一些内容不需要索引，比如：商品图片地址只被用来展示图片，不进行搜索图片，此时可以将index设置为false。
　　　　　　删除索引，重新创建映射，将pic的index设置为false，尝试根据pic去搜索，结果搜索不到数据

　　　 3）store

　　　　是否在source之外存储，每个文档索引后会在 ES中保存一份原始文档，存放在"_source"中。

　　　一般情况下不需要设置store属性为true，因为在_source中已经有一份原始文档了。

　　测试：

　　<1>创建新索引：

　　<2>创建新映射：Post http://localhost:9200/xc_course/doc/_mapping

{

  "properties": {

    "name": {

      "type": "text",

      "analyzer": "ik_max_word",

      "search_analyzer": "ik_smart"

    },

    "description": {

      "type": "text",

      "analyzer": "ik_max_word",

      "search_analyzer": "ik_smart"

    },

    "pic": {

      "type": "text",

      "index": false

    },

    "studymodel": {

      "type": "text"

    }

  }

}

　　　　<3>插入文档：
　　　　http://localhost:9200/xc_course/doc/4028e58161bcf7f40161bcf8b77c0000

查询测试：
Get http://localhost:9200/xc_course/_search?q=name:开发
Get http://localhost:9200/xc_course/_search?q=description:开发
Get http://localhost:9200/xc_course/_search?q=pic:group1/M00/00/01/wKhlQFqO4MmAOP53AAAcwDwm6SU490.jpg
Get http://localhost:9200/xc_course/_search?q=studymodel:201002
通过测试发现：name和description都支持全文检索，pic不可作为查询条件。

keyword关键字字段

　　上边介绍的text文本字段在映射时要设置分词器，keyword字段为关键字字段，通常搜索keyword是按照整体搜索，所以创建keyword字段的索引时是不进行分词的，比如：邮政编码、手机号码、身份证等。keyword字段通常用于过虑、排序、聚合等

<2>date日期类型

日期类型不用设置分词器。
通常日期类型的字段用于排序。
1)format
通过format设置日期格式
例子：
下边的设置允许date字段存储年月日时分秒、年月日及毫秒三种格式。

{

  "properties": {

    "timestamp": {

      "type": "date",

      "format": "yyyy‐MM‐dd HH:mm:ss||yyyy‐MM‐dd"

    }

  }

}

<3>数值类型

下边是ES支持的数值类型

1、尽量选择范围小的类型，提高搜索效率
2、对于浮点数尽量用比例因子，比如一个价格字段，单位为元，我们将比例因子设置为100这在ES中会按分存
储，映射如下：

"price": {

"type": "scaled_float",

"scaling_factor": 100

},

由于比例因子为100，如果我们输入的价格是23.45则ES中会将23.45乘以100存储在ES中。
如果输入的价格是23.456，ES会将23.456乘以100再取一个接近原始值的数，得出2346。
使用比例因子的好处是整型比浮点型更易压缩，节省磁盘空间

028 ElasticSearch----全文检索技术03---基础知识详解01-IK分词器和映射的更多相关文章

Cisco路由技术基础知识详解
第一部分请写出568A的线序(接触网络第一天就应该会的,只要你掐过,想都能想出来) .网卡MAC地址长度是( )个二进制位(16进制与2进制的换算关系,只是换种方式问,不用你拿笔去算) A.12 ...
RabbitMQ,Apache的ActiveMQ,阿里RocketMQ,Kafka,ZeroMQ,MetaMQ,Redis也可实现消息队列，RabbitMQ的应用场景以及基本原理介绍，RabbitMQ基础知识详解，RabbitMQ布曙
消息队列及常见消息队列介绍 2017-10-10 09:35操作系统/客户端/人脸识别一.消息队列(MQ)概述消息队列(Message Queue),是分布式系统中重要的组件,其通用的使用场景可以 ...
RabbitMQ基础知识详解
什么是MQ? MQ全称为Message Queue, 消息队列(MQ)是一种应用程序对应用程序的通信方法.MQ是消费-生产者模型的一个典型的代表,一端往消息队列中不断写入消息,而另一端则可以读取队列中 ...
Python基础知识详解从入门到精通（七）类与对象
本篇主要是介绍python,内容可先看目录其他基础知识详解,欢迎查看本人的其他文章Python基础知识详解从入门到精通(一)介绍Python基础知识详解从入门到精通(二)基础Python基础知识详 ...
Elasticsearch之文档的增删改查以及ik分词器
文档的增删改查增加文档使用elasticsearch-head查看修改文档使用elasticsearch-head查看删除文档使用elasticsearch-head查看查看文档的三种方 ...
直播一：H.264编码基础知识详解
一.编码基础概念 1.为什么要进行视频编码? 视频是由一帧帧图像组成,就如常见的gif图片,如果打开一张gif图片,可以发现里面是由很多张图片组成.一般视频为了不让观众感觉到卡顿,一秒钟至少需要16帧 ...
第157天：canvas基础知识详解
目录一.canvas简介 1.1 什么是canvas?(了解) 1.2 canvas主要应用的领域(了解) 二.canvas绘图基础 2.0 sublime配置canvas插件(推荐) 2.1 Ca ...
redis基础知识详解
一.redis基础知识 1.Redis是什么Redis是一个开源的key-value存储系统. 和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list(链表 ...
【干货】用大白话聊聊JavaSE — ArrayList 深入剖析和Java基础知识详解（二）
在上一节中,我们简单阐述了Java的一些基础知识,比如多态,接口的实现等. 然后,演示了ArrayList的几个基本方法. ArrayList是一个集合框架,它的底层其实就是一个数组,这一点,官方文档 ...

随机推荐

python2.7写的图形密码生成器
#coding:utf8import random,wxdef password(event): a = [chr(i) for i in range(97,123)] b = [chr(i) for ...
洛谷P1523 旅行商简化版(DP)
题目: P1523 旅行商简化版解析可以看做是两个人同时从西往东走,经过不一样的点,走到最东头的方案数设\(f[i][j]\)表示一个人走到i,一个人走到j的最短距离(\(i<j\)) 第 ...
wamp不能使用phpmyadmin，提示“You don't have permission to access /phpmyadmin/ on this server.”
当你安装完成wamp后,打开localhost或ip时发现已经可以运行了但想使用phpmyadmin时,发现提示如下内容: You don't have permission to access / ...
JVM参数最佳实践：元空间的初始大小和最大大小
本文阅读时间大约4分钟. JVM加载类的时候,需要记录类的元数据,这些数据会保存在一个单独的内存区域内,在Java 7里,这个空间被称为永久代(Permgen),在Java 8里,使用元空间(Meta ...
Fundebug 微信小程 BUG 监控插件更新至 1.2.1，优化错误上报次数的限制算法，新增 silentHttpHeader 配置选项
摘要: 1.2.1优化错误上报次数的限制算法,新增silentHttpHeader配置选项,请大家及时更新哈! Fundebug提供专业的微信小程序 BUG 监控服务,可以第一时间为您捕获生存环境中小 ...
触发器TRIGGER 自增IDENTITY 聚集索引CLUSTERED
在触发器的“触发”过程中,有两个临时表inserted和deleted发生了作用.这两个特殊的临时表inserted和deleted,仅仅在触发器运行时存在,它们在某一特定时间和某一特定表相关. CR ...
angular6 导出Excel文件
1.安装file-saver.@types/file-saver和xlsx npm install file-saver --save npm install @types/file-saver -- ...
jq node.js bootstrap
1.node.js 网址:https://nodejs.org/en/ 用来通过下载node.js 来引用里面的npm 来实现对外部项目的下载 1.安装nodejs 自带了npm npm instal ...
Spring中@Autowired、@Resource和@Inject注解的使用和区别
在使用Spring进行项目开发的时候,会大量使用到自动装配,那自动装配是什么呢?简单来说:Spring 利用依赖注入(DI)功能,完成SpringIOC容器中各个组件之间的依赖关系赋值管理. 下面介绍 ...
excel隔行选中内容如何操作
查看log日志是站长经常要做的事,从日志中可以发现很多问题,spider最近有没来爬,爬了哪些url,哪些页面不存在了等等,这些都可以看得到.然后你要根据不同的情况采取相应的措施.ytkah喜欢把这些 ...

028 ElasticSearch----全文检索技术03---基础知识详解01-IK分词器和映射

028 ElasticSearch----全文检索技术03---基础知识详解01-IK分词器和映射的更多相关文章

随机推荐

热门专题