1 type的作用

在Elasticsearch的索引(index)中, 通过标识元字段_type来区分不同的type, 所以我们可以把具有相同字段(field)的文档划分到同一个type下.

==> 因而_type也称作映射类型, 即每个type都有各自的mapping.

但即使是类似的数据, 也有可能存在不同的field, 比如:

商品中有电子商品有电压field;

服装商品有洗涤方式field;

生鲜商品有营养成分field… 这些不同的field要如何处理呢?

==> 在之前的博文中有提到过: 同一index的不同type中, 同名的field的映射配置必须相同. 这是为什么呢?

2 type的底层数据结构

Elasticsearch底层所使用的核心工具库——Lucene中并没有type的说法, 它在建立索引的时候, 会把所有field的值当做opaque bytes(不透明字节)类型来处理:

在存储document时, ES会将该document所属的type作为一个type字段进行存储;

在搜索document时, ES通过_type来进行过滤和筛选.

每个index中的所有type都是存储在一起的, 因此:

在Elasticsearch 6.0之前: 同一个index的不同type中, 同名的field的映射配置(_type)必须相同.

在Elasticsearch 6.0开始: 一个index中不能拥有多个type.

3 探究type的存储结构

说明: 从Elasticsearch 6.0开始, 不允许在一个index中创建多个type ——只能创建一个, 否则将发生错误:

{

  "error": {

    "root_cause": [

      {

        "type": "illegal_argument_exception",

        "reason": "Rejecting mapping update to [website] as the final mapping would have more than 1 type: [manager, writer]"

      }

    ],

    "type": "illegal_argument_exception",

    "reason": "Rejecting mapping update to [website] as the final mapping would have more than 1 type: [manager, writer]"

  },

  "status": 400

}

这里演示所用的版本是6.6.0, 特此说明.

3.1 创建索引并配置映射

PUT website

{

    "mappings": {      // Elasticsearch 6.0之后的版本中, 只添加这一个type

        "writer": {

            "properties": {

                "id": { "type": "long" },

                "name": { "type": "text" },

                "age": { "type": "integer" },

                "sex": { "type": "text", "index": false }

            }

        },

        "manager": {   // 省去此type

            "properties": {

                "id": { "type": "long" },

                "name": { "type": "text" },

                "age": { "type": "integer" },

                "sex": { "type": "text", "index": false },

                "authorize": { "type": "text", "index": false}

            }

        }

    }

}

3.2 添加数据

PUT website/writer/1

{

    "id": 1001,

    "name": "tester",

    "age": 18,

    "sex": "female"

}

// Elasticsearch 6.0之后的版本中, 不添加下述文档:

PUT website/manager/1

{

    "id": 1001,

    "name": "shou feng",

    "age": 20,

    "sex": "male",

    "authorize": "all"

}

3.3 查看存储结构

// 搜索所有数据

GET website/_search

// 搜索结果如下:

{

  "hits" : {

    "total" : 1,

    "max_score" : 1.0,

    "hits" : [

      {

        "_index" : "website",

        "_type" : "writer",    // _type是writer

        "_id" : "1",

        "_score" : 1.0,

        "_source" : {

          "id" : 1001,

          "name" : "tester",

          "age" : 18,

          "sex" : "female"

        }

      },

      {

        "_index": "website",

        "_type": "manager",			// _type为manager

        "_id": "1",

        "_score": 1,

        "_source": {

          "id": 1001,

          "name": "shou feng",

          "age": 20,

          "sex": "male",

          "authorize": "all"

        }

      }

    ]

  }

}

4 关于type的最佳实践

将结构类似的type存放在同一个index下 —— 这些type的大部分field应该是相同的.

如果将两个field完全不同的type存入同一个index下, 在Lucene底层存储时, 每个document中都将有一大部分field是空值, 这将导致严重的性能问题, 并且占用磁盘空间:

例如: 上述website/writer的每个document中, 都有"authorize"字段, 只是它们的值都为空.

—— 从这个角度出发, 大概就能猜出 ES限制一个index中只能有一个type 的原因了吧, 也就是更方便地组织文档数据、节省磁盘空间

ES 14 - (底层原理) Elasticsearch内部如何处理不同type的数据的更多相关文章

ES 18 - (底层原理) Elasticsearch写入索引数据的过程以及优化写入过程
目录 1 Lucene操作document的流程 1.1 添加document的流程 1.2 删除document的流程 2 优化写入流程 - 实现近实时搜索 2.1 流程的改进思路 2.2 设置re ...
ES 17 - (底层原理) Elasticsearch增删改查索引数据的过程
目录 1 增删改document的流程 1.1 协调节点 - Coordinating Node 1.2 增删改document的流程 2 查询document的流程 1 增删改document的流程 ...
ES的底层原理-倒排索引的概念
Elasticsearch底层使用的使用的lucene lucene使用的是倒排索引的方式来进行加快检索速度倒排索引的原理 doc_1 The quick brown fox jumped ...
Hive底层原理：explain执行计划详解
不懂hive中的explain,说明hive还没入门,学会explain,能够给我们工作中使用hive带来极大的便利! 理论本节将介绍 explain 的用法及参数介绍 HIVE提供了EXPLAIN ...
ELasticSearch（五）ES集群原理与搭建
一.ES集群原理查看集群健康状况:URL+ /GET _cat/health (1).ES基本概念名词 Cluster 代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产 ...
ES之二：Elasticsearch原理
Elasticsearch是最近两年异军突起的一个兼有搜索引擎和NoSQL数据库功能的开源系统,基于Java/Lucene构建.最近研究了一下,感觉 Elasticsearch 的架构以及其开源的生态 ...
深入源码分析SpringMVC底层原理（二）
原文链接:深入源码分析SpringMVC底层原理(二) 文章目录深入分析SpringMVC请求处理过程 1. DispatcherServlet处理请求 1.1 寻找Handler 1.2 没有找到 ...
并发之volatile底层原理
15.深入分析Volatile的实现原理 14.java多线程编程底层原理剖析以及volatile原理 13.Java中Volatile底层原理与应用 12.Java多线程-java.util.con ...
MVC底层原理
窥探ASP.Net MVC底层原理实现跨越Session的分布式TempData 1.问题的引出我相信大家在项目中都使用过TempData,TempData是一个字典集合,一般用于两个请求之间临时 ...

随机推荐

如何找某个样式属于哪个Element
如果找不到样式所在的Element,那么可以参考排除法,逐个删除覆盖在同一位置的元素,如果该样式消失,那么可以判断为这个样式.
Spring系列(三)：Spring IoC中各个注解的理解和使用
原文链接:1. http://www.cnblogs.com/xdp-gacl/p/3495887.html 2. http://www.cnblogs.com/xiaoxi/p/5935 ...
【转】javascript 分号问题
javascript的分号代表语句的结束符,但由于javascript具有分号自动插入规则,所以它是一个十分容易让人模糊的东西,在一般情况下,一个换行就会产生一个分号,但实际情况却不然,也就是说在ja ...
基于ubuntu16.04快速构建Hyperledger Fabric网络
前言最近在参加一个比赛,使用到了区块链的开源软件hyperledger,由于之前从未接触过区块链,以及和区块链开发相关的内容,所有在网上查阅了大量的资料,并且通过学习yeasy(杨宝华)开源的入门书 ...
Rocketmq 集群
写在前面 Rocketmq采用apache rockemq 4.2.0release版本. 源码路径(http://mirrors.shu.edu.cn/apache/rocketmq/4.2.0/r ...
Netty中的连接管理
连接管理是我们首先需要关注的,检测空闲连接以及超时对于及时释放资源来说是至关重要的.由于这是一项常见的任务,Netty特地为它提供了几个ChannelHandler实现. 用于空闲连接以及超时的Cha ...
Linux时间子系统之三：时间的维护者：timekeeper
专题文档汇总目录 Notes: 原文地址:Linux时间子系统之三:时间的维护者:timekeeper 本系列文章的前两节讨论了用于计时的时钟源:clocksource,以及内核内部时间的一些表示方法 ...
Servlet、Filter
加载顺序是:context-param -> listener -> filter -> servlet ,而同个类型之间的实际程序调用的时候的顺序是根据对应的 mapping 的顺 ...
Docker for Windows 使用 VMware WorkStation
一.前言 Docker for Windows 不同于 Docker Toolbox.Docker for Windows 对系统的要求至少为Windows 10专业版,因为它需要Hyper-V的支持 ...
Spark2.1.0——运行环境准备
学习一个工具的最好途径,就是使用它.这就好比<极品飞车>玩得好的同学,未必真的会开车,要学习车的驾驶技能,就必须用手触摸方向盘.用脚感受刹车与油门的力道.在IT领域,在深入了解一个系统的原 ...

ES 14 - (底层原理) Elasticsearch内部如何处理不同type的数据