es对索引的一堆操作都是用restful api去进行的,参数时一堆json,一年前边查边写搞过一次,这回搞迁移,发现es都到6.0版本了,也变化了很多,写个小笔记记录一下。

创建一个es索引很简单,一个put请求。

PUT /my_index
{
"settings": { ... any settings ... },
"mappings": {
"type_one": { ... any mappings ... },
},
"aliases" : {...}
}

新建一个索引,包含settings mappings 和aliases。settings设置分片等一些参数,mappings设置如何处理索引的各个type,aliases以前没有用过,看上去我不太会用到,这边就不记录了。

settings

这边有非常多的参数可以设置,不过官方是不建议修改的。常见需要改的就俩

  • number_of_shards
    每个索引的主分片数,默认值是 5 。这个配置在索引创建后不能修改。
  • number_of_replicas
    每个主分片的副本数,默认值是 1 。对于活动的索引库,这个配置可以随时修改。
PUT /my_temp_index
{
"settings": {
"number_of_shards" : 3,
"number_of_replicas" : 2
}
}

给索引设置settings值

PUT /my_temp_index/_settings
{
"number_of_replicas": 1
}

修改settings值

mappings

每个文档都有type,每种type都会有自己的mapping。mapping定义了type的field,每个field的数据类型,以及es如何处理这些field。

注意,一个mappings里边不建议有多个type,而且在es6之后的版本很有可能会不允许有多个type。

按照官方的计划,es7-es9会逐步去掉type

建议是每个index都只有一个type,原因是一个index中的各个type的字段并不是完全独立的,一个index中多个type会造成一些浪费。

可以通过/_mapping 来查看es中一个或多个索引中的一个或多个mapping。

数据类型 (field)

  • 字符串 string

    • text
    • keyword
  • 数字
    • long integer short byte double float half_float scaled_float
  • 布尔型 boolean
  • 日期 date
  • range
    • integer_range
    • float_range
    • long_range
    • double_range
    • date_range
  • array
  • object

还有很多我确定我不会用到的类型。

当索引一个包含新的field的文档时,es会使用<b>动态映射</b>,通过JSON中基本数据类型,尝试猜测field类型

一般情况下,默认映射就足够了。es会自动把如 123 映射为integer,123.123映射为double,但是很多情况下,我们都需要自定义映射,特别是string类型。

自定义映射可以做这些事:

  • 配置为全文字符串和精确字符串 (如name字段我更希望他不要分词,而desc字段更需要分词后搜索)
  • 使用特定语言分析器
  • 。。。

一个field最主要的属性是type,对于大部分field,一般只需要设置type就可以了:

{
"number_of_clicks": {
"type": "integer"
}
}

range

PUT range_index
{
"mappings": {
"my_type": {
"properties": {
"expected_attendees": {
"type": "integer_range"
},
"time_frame": {
"type": "date_range",
"format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis"
}
}
}
}
}

插入格式

PUT range_index/my_type/1
{
"expected_attendees" : {
"gte" : 10,
"lte" : 20
},
"time_frame" : {
"gte" : "2015-10-31 12:00:00",
"lte" : "2015-11-01"
}
}

搜索格式

POST range_index/_search
{
"query" : {
"range" : {
"time_frame" : {
"gte" : "2015-10-31",
"lte" : "2015-11-01",
"relation" : "within"
}
}
}
}

这部分比较简单 不细致展开了

string

对于string类型,以前是只有string,现在分为了两种,keyword和text

text

text会先经过分析器,然后索引起来,类似desc这样的字段就需要使用text。有以下几个重要字段。

analyzer

分析器,可以指定如何处理这个string,比如我想先把所有html的标记全去掉,再分词,再删除无用的停顿次,然后把剩下的token索引起来。可以使用默认的standard分析器,也可以指定别的内置的分析器。也可以使用插件安装的第三份分析器,如ik,也可以自定义分析器。

分析器使用起来很简单

{
"desc": {
"type": "string",
"analyzer": "ik_smart"
}
}

其中,ik_smart是已经安装好的第三方分析器。

index

是否设置为可以搜索,boolean

norm

我理解是算分时是否进行一些标准化处理,需要额外的资源。

fields

这个字段很有趣.. 先看个例子

"filename":{
"type":"text",
"norms":false,
"fields":{
"raw":{
"type":"keyword",
"ignore_above":256
}
}
},

一个filename的字段,这边设置的是type是text,会分词搜索。但有时候我们需要精准匹配,就可以使用filename.raw。插入时只需要输入filename,保存在es里边的会有两份,filename和filename.raw。

keyword

和text不同,keyword不会经过分析器,搜索时会精确匹配。

index fields

这两个参数和text的相同

ignore_above

丢掉超过一定长度的字符串


映射操作
新建映射
PUT /index_name
{
"mappings": {
"person" : {
"properties" : {
"desc" : {
"type" : "string",
"analyzer": "ik_smart"
},
"birth" : {
"type" : "date"
},
"name" : {
"type" : "string",
"index" : "not_analyzed"
},
"user_id" : {
"type" : "long"
}
}
}
}
}

新建一个index,desc字段用ik分词索引,birth设置为日志,name字段精确索引,user_id设置为long型。

更新映射
PUT /index_name/_mapping/person
{
"properties" : {
"tag" : {
"type" : "string",
"index": "not_analyzed"
}
}
}

新增一个tag字段。

作者:辰辰沉沉沉
链接:https://www.jianshu.com/p/bd23b86848dd
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

es笔记---新建es索引的更多相关文章

  1. ES(ElasticSearch) 索引创建

    个人分类: ElasticSearchindex   环境:ES 6.2.2 os:Centos  7 kibana:6.2.2 1.创建新的索引(index) PUT indexTest001 结果 ...

  2. 白日梦的Elasticsearch实战笔记,ES账号免费借用、32个查询案例、15个聚合案例、7个查询优化技巧。

    目录 一.导读 二.福利:账号借用 三._search api 搜索api 3.1.什么是query string search? 3.2.什么是query dsl? 3.3.干货!32个查询案例! ...

  3. 白日梦的ES笔记三:万字长文 Elasticsearch基础概念统一扫盲

    目录 一.导读 二.彩蛋福利:账号借用 三.ES的Index.Shard及扩容机制 四.ES支持的核心数据类型 4.1.数字类型 4.2.日期类型 4.3.boolean类型 4.4.二进制类型 4. ...

  4. ES使用小结之索引Rollover

    Elasticsearch 使用小结之索引Rollover 索引名 一般而言,客户端将数据每天写入一个索引,比如直接写入YYYY-MM-HH格式的索引,那么我们只需要在写入的客户端里面获取时间,然后得 ...

  5. ES 文档与索引介绍

    在之前的文章中,介绍了 ES 整体的架构和内容,这篇主要针对 ES 最小的存储单位 - 文档以及由文档组成的索引进行详细介绍. 会涉及到如下的内容: 文档的 CURD 操作. Dynamic Mapp ...

  6. Mongodb Manual阅读笔记:CH7 索引

    7索引 Mongodb Manual阅读笔记:CH2 Mongodb CRUD 操作Mongodb Manual阅读笔记:CH3 数据模型(Data Models)Mongodb Manual阅读笔记 ...

  7. Mysql数据库学习笔记之数据库索引(index)

    什么是索引: SQL索引有两种,聚集索引和非聚集索引,索引主要目的是提高了SQL Server系统的性能,加快数据的查询速度与减少系统的响应时间. 聚集索引:该索引中键值的逻辑顺序决定了表中相应行的物 ...

  8. SQL反模式学习笔记13 使用索引

    目标:优化性能 改善性能最好的技术就是在数据库中合理地使用索引.  索引也是数据结构,它能使数据库将指定列中的某个值快速定位在相应的行. 反模式:无规划的使用索引 1.不使用索引或索引不足 2.使用了 ...

  9. SQL学习笔记之MySQL索引知识点

    0x00 概述 之前写过一篇Mysql B+树学习,简单的介绍了B+数以及MySql使用B+树的原因, 有了这些基础知识点,对MySql索引的类型以及索引使用的一些技巧,就比较容易理解了. 0x01 ...

随机推荐

  1. hash_table

    #include <ext/pb_ds/hash_policy.hpp> #include <ext/pb_ds/assoc_container.hpp> using name ...

  2. web性能优化--减少DOM操作(三)

    减少DOM数量 减少DOM操作 批量处理DOM操作 批量处理样式修改 尽量不要使用tabel布局 尽量不要使用css表达式 string用数组join css选择符优化 1.减少DOM数量 在HTML ...

  3. HTTP协议的请求方法

    HTTP概念: HTTP是一个基于TCP/IP通信协议来传递数据,包括html文件.图像.结果等,即是一个客户端和服务器端请求和应答的标准 1.http无连接:限制每次连接只处理一个请求,服务端完成客 ...

  4. 【windows&flask】flask通过service自动运行

    最近在学习在windows平台用flask框架提供Restful API服务,需要使得flask的windows应用能够开机自动运行,并且后台运行,所以通过service来实现. 首先尝试的是在自己派 ...

  5. 集合比较器报错java.lang.IllegalArgumentException: Comparison method violates its general contract!

    Collections.sort(listMonthlyUsage, new Comparator<MonthlyUsageDto>() { //按照元素从小到大排序 @Override ...

  6. angular-seed — AngularJS种子项目

    AngularJS Seed 是典型 AngularJS web 应用的应用骨架,可以快速启动你的 AngularJS webapp 项目和这些项目的开发环境. AngularJS Seed 包括一个 ...

  7. web上传文件夹

    文件夹数据库处理逻辑 publicclass DbFolder { JSONObject root; public DbFolder() { this.root = new JSONObject(); ...

  8. 如何查看运行的docker container 的 执行 docker run的命令

    前言 就是我备份了一下 mysql_container, 然后我想启用 新的备份的mysql_container 但是之前的docker run image xxxxxx这些都已经忘记了 我想找一下之 ...

  9. ArrayList遍历的三种方法

    在输出很多的ArrayList的元素时,用普通的for循环太麻烦,因此本文介绍三种遍历ArrayList的方法 package test; public class Student { private ...

  10. [BZOJ3796]Mushroom追妹纸:后缀自动机+KMP

    分析 这道题有个\(O(n)\)的后缀自动机做法,感觉很好理解就在这说一下. 先对\(s1\)和\(s2\)求最长公共子串,对于\(s2\)的每一个下标\(i\),求一个\(f[i]\)表示以\(s2 ...