在介绍ES的更新操作的时候,说过,ES的索引创建是很简单的,没有必要多说,这里是有个前提的,简单是建立在ES默认的配置基础之上的。

比如,当ES安装完毕后,我们就可以通过curl命令完成index,type以及文档的创建。这些创建过程,都是建立在ES的默认配置上的,这里主要说的配置指的是ES的分析器以及数据字段类型。ES的强大之处在于,我们向文档添加字段时,可以不用指定各个field的数据类型,也不用配置这些field在搜索的时候,采用什么analyzer进行分词(ES默认采用的是standard analyzer)。

在进行本博文案例分析前,有必要说下,ES支持的数据类型:

  • 简单数据类型: string, date, long, double,integer,boolean 以及ip等等
  • 层级结构类型:JSON型的object,嵌套类型 (都是JSON)
  • 特殊结构类型:geo_point, geo_shape以及completion。

这些数据类型,可以在创建索引的时候,指定。在此,需要讲解一下mapping的含义,按照官方的文档描述:

 Mapping is the process of defining how a document, and the fields it contains, are stored and indexed. For instance, use mappings to define:

 > which string fields should be treated as full text fields.
> which fields contain numbers, dates, or geolocations.
> whether the values of all fields in the document should be indexed into the catch-all _all field.
> the format of date values.
> custom rules to control the mapping for dynamically added fields.

也就是说,这个mapping有点类似我们定义MySQL的数据库表结构的时候,需要指定每个字段的名字,其数据类型一样。当然,这个定义过程,也指明了这个表结构一共含有多少个字段了。对于ES而言,就相当于指定了一个document有多少field,每个field的数据类型,注意,这个比MySQL定义表过程,还多了一个有用的操作,就是指定每个字段可用的分析器(analyzer). 当然,不指定的话,就是采用默认的standard analyzer,当然你也可以指定某个字段不需要分析器(not_analyzed).

下面,再来说说分析器analyzer。

ES系统默认提供了很多的分析器,最著名的是standard analyzer。另外,还有下面的一些分析器,这些分析器,可以进入官网进行深入研究。

这些分析器中,重点在于如何对待搜索的目标进行分词(token)。

下面,将通过一个简单的例子,来说说mapping的操作,以及基于standard analyzer自定义一个自己的分析器csh_analyaer:

 [root@localhost ~]# curl -XPUT "localhost:9210/test" -d '
{
"settings": {
> "analysis": {
> "analyzer": { #配置分析器
> "csh_analyzer": { #分析器的名字是csh_analyer,这个是系统没有的,我自己定义的一个,可以取一个不和已有的分析器重名的名字
> "type": "standard", #这个分析器的类型是基于系统自带的标准的standard分析器
> "stopwords": "_english_" #禁用词,或者说无效词范围定义来自_english_列表
> }
> }
> }
> },
> "mappings": {
> "user": { #定义test索引下的一个type为user
> "properties": { #开始定义这个type的属性值(也可以用fields)
> "first_name": { #字段名为first_name
> "type": "string", #数据类型为string
> "analyzer": "standard"   #分析器用系统默认的standard
> },
> "last_name": { #字段名字为last_name
> "type": "string", #字段类型为string
> "analyzer": "csh_analyzer" #分析器为自定义的csh_analyzer
> },
> "job": { #字段名字为job
> "type": "string", #字段类型
> "analyzer": "csh_analyzer" #分析器为自定义的csh_analyzer
> }
> }
> }
> }
> }'

获取索引的mapping信息:

 [root@localhost ~]# curl "localhost:9210/test/?mappings&pretty"
{
"test" : {
"aliases" : { },
"mappings" : {
"user" : {
"properties" : {
"first_name" : {
"type" : "string",
"analyzer" : "standard"
},
"job" : {
"type" : "string",
"analyzer" : "csh_analyzer"
},
"last_name" : {
"type" : "string",
"analyzer" : "csh_analyzer"
}
}
}
},
"settings" : {
"index" : {
"creation_date" : "",
"uuid" : "czFz6sMzQHSKcvEb4o_yYg",
"analysis" : {
"analyzer" : {
"csh_analyzer" : {
"type" : "standard",
"stopwords" : "_english_"
}
}
},
"number_of_replicas" : "",
"number_of_shards" : "",
"version" : {
"created" : ""
}
}
},
"warmers" : { }
}
}

现在,是不是有个疑问,这个mapping或者说里面的settings有什么用呢,其实,主要是在搜索的时候,ES系统内部自己用的。我们不给index指定mapping或不进行settings设置,其实在很多时候也工作的很好。但是,对于操作的数据对象,我们自己了解的信息一定不会比ES系统猜测的信息全和准确。所以,我们自己在工程应用中,最好还是要自己给自己的索引做settings和mappings的设置

看一下例子,针对上面我们建立的索引test,进行测试,看看字段在分词的时候,是不是我们想要的结果:

 [root@localhost ~]# curl -XPOST "localhost:9210/test/_analyze?pretty" -d '{
"field": "first_name",
"text": "the shihu"
}'
{
"tokens" : [ {
"token" : "the",
"start_offset" : ,
"end_offset" : ,
"type" : "<ALPHANUM>",
"position" :
}, {
"token" : "shihu",
"start_offset" : ,
"end_offset" : ,
"type" : "<ALPHANUM>",
"position" :
} ]
}

看到没,上面操作的数据,field是first_name,分析的字符串text为"the shihu", 最后得到的结果是两个分词(token),一个是the,一个是shihu。还记得么,first_name对应的analyzer是standard。而standard分析器分词的依据之一就是把目标内容拆分成一个个的单词,分割器可以是空格,逗号等标点符号,请求看官方文档Standard Analyzer

再看另外一个测试例子:

 [root@localhost ~]# curl -XPOST "localhost:9210/test/_analyze?pretty" -d '{
"field": "last_name",
"text": "the shihu"
}'
{
"tokens" : [ {
"token" : "shihu",
"start_offset" : ,
"end_offset" : ,
"type" : "<ALPHANUM>",
"position" :
} ]
}

这个操作中的field是last_name,分析的字符串依然是“the shihu”,但是最后看到的结果中只有一个token,只有shihu,没有了the这个词。区别在于这个last_name的analyzer是用的自定义的csh_analyzer,而这个是基于standard的自定义分析器,stopwords改成了_english_,这个里面应该是包含了the这种英文分词常见的词,这个词是大概率出现的词,按照信息论的概念,信息量与概率的大小成反比,所以the这种大概率的词含有很小的信息量,通常不作为搜索返回结果,所以在分词列表中去掉了

到此,ES的mappings相关的介绍,就抛砖结束了,其间顺便也讲解了点分析器,希望对理解ES工作原理的伙伴有点帮助!

Elasticsearch【mappings】类型配置操作的更多相关文章

  1. elasticsearch 6.0.0及之后移除了一个索引允许映射多个类型的操作(Removal of mapping types)

    分给线一下内容为理解错误内容,实际允许建立父子分档,只是类型改成来 join 官方demo: join datatypeedit The join datatype is a special fiel ...

  2. ElasticSearch 模板文件配置

    首先是推荐一下参考资料 中文资料:http://kibana.logstash.es/content/elasticsearch/index.html 官方文档:https://www.elastic ...

  3. elasticsearch 7版本 基础操作

    elasticsearch 7版本 基础操作 首先我们浏览器http://localhost:5601/进入 kibana里的Console中输入 首先让我们在 Console 中输入: PUT t1 ...

  4. ES2:ElasticSearch 集群配置

    ElasticSearch共有两个配置文件,都位于config目录下,分别是elasticsearch.yml和logging.yml,其中,elasticsearch.yml 用来配置Elastic ...

  5. Elasticsearch + logstash + kibana 配置

    Elasticsearch 配置 Elasticsearch不仅仅是Lucene和全文搜索,我们还能这样去描述它: 分布式的实时文件存储,每个字段都被索引并可被搜索 分布式的实时分析搜索引擎 可以扩展 ...

  6. StackExchange.Redis帮助类解决方案RedisRepository封装(字符串类型数据操作)

    本文版权归博客园和作者本人共同所有,转载和爬虫请注明原文链接 http://www.cnblogs.com/tdws/tag/NoSql/ 目录 一.基础配置封装 二.String字符串类型数据操作封 ...

  7. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作(二)

    CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...

  8. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作

    http://www.cnblogs.com/wgp13x/p/4934521.html 内容一样,样式好的版本. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据 ...

  9. IBM WebSphere MQ 通道类型配置

    IBM WebSphere MQ 通道类型配置 初学MQ,四种常见通道,windows下操作 目录 Sender--Receiver Server-Receiver Server-Requester ...

随机推荐

  1. Java收藏

    1.某大神的cnblogs博客关于java的随笔分类:http://www.cnblogs.com/viviman/category/444566.html 2.某大神的cnblogs博客关于java ...

  2. 触发Full GC执行的情况

    除直接调用System.gc外,触发Full GC执行的情况有如下四种. 1. 旧生代空间不足 旧生代空间只有在新生代对象转入及创建为大对象.大数组时才会出现不足的现象,当执行Full GC后空间仍然 ...

  3. 将NSString转换成UTF8编码的NSString

    在使用网络地址时,一般要先将url进行encode成UTF8格式的编码,否则在使用时可能报告网址不存在的错误,这时就需要进行转换 下面就是转换函数: NSString *urlString= [NSS ...

  4. jquery判断div是否隐藏实例

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

  5. Unity3D 处理Label的颜色代码

    UILabel m_name = transform.Find("Name").GetComponent<UILabel>(); m_name.text = GetNa ...

  6. software_testing_work3_question1

    package com.Phantom; import java.io.IOException; import java.util.Scanner; public class Work3_1 { /* ...

  7. WindowsService部署和问题的解决方法

    1.Windows Service项目生成:[服务名称].exe 编译后,把bin\debug下所有都拷贝到生产环境的一个地址下:[服务exe所在文件地址] 2.部署:做一个ServiceInstal ...

  8. 黑马----面向方面编程AOP

    黑马程序员:Java培训.Android培训.iOS培训..Net培训 JAVA反射-面向方面编程AOP 一.面向方面的需求 有如下模型: 需要统计客户登录时间.使用系统情况,或系统运行日记等信息时, ...

  9. 重装Ubuntu16.04及安装theano

    一.卸载现有的ubuntu系统 1.下载MbrFix,并放在C盘根目录. 2.管理员身份运行cmd命令符:切换到C盘根目录,然后输入命令符MbrFix /drive 0 fixmbr,回车确认即可. ...

  10. 简单的射击游戏HTML+JS实现

    一直想自己写一个游戏玩,时间和精力都不太允许,最近几天刚好有空闲时间,就琢磨了这个小游戏. 刚开始想着计算图片重叠事件,然后让炮弹和飞机消失,傻乎乎写了一天,越整越乱.今天一大早晕过来了,改用数组以后 ...