注意：由于是重复数据，词法不具有通用性！文章价值不大！

摘自：https://segmentfault.com/a/1190000002695169

Doc Values 会压缩存储重复的内容。给定这样一个简单的 mapping

mappings = {

    'testdata': {

        '_source': {'enabled': False},

        '_all': {'enabled': False},

        'properties': {

            'name': {

                'type': 'string',

                'index': 'no',

                'store': False,

                'dynamic': 'strict',

                'fielddata': {'format': 'doc_values'}

            }

        }

    }

}

插入100万行随机的重复值

words = ['hello', 'world', 'there', 'here']

def read_test_data_in_batches():

    batch = []

    for i in range(10000 * 100):

        if i % 50000 == 0:

            print(i)

        if len(batch) > 10000:

            yield batch

            batch = []

        batch.append({

            '_index': 'wentao-test-doc-values',

            '_type': 'testdata',

            '_source': {'name': random.choice(words)}

        })

    print(i)

    yield batch

磁盘占用是

size: 28.5Mi (28.5Mi)

docs: 1,000,000 (1,000,000)

把每个word搞长一些，同样是插入100万行

words = ['hello' * 100, 'world' * 100, 'there' * 100, 'here' * 100]

def read_test_data_in_batches():

    batch = []

    for i in range(10000 * 100):

        if i % 50000 == 0:

            print(i)

        if len(batch) > 10000:

            yield batch

            batch = []

        batch.append({

            '_index': 'wentao-test-doc-values',

            '_type': 'testdata',

            '_source': {'name': random.choice(words)}

        })

    print(i)

    yield batch

磁盘占用不升反降

size: 14.4Mi (14.4Mi)

docs: 1,000,000 (1,000,000)

这说明了lucene在底层用列式存储这些字符串的时候是做了压缩的。这个要是在某个商业列式数据库里，就这么点优化都是要大书特书的dictionary encoding优化云云。

Nested Document

实验表明把一堆小文档打包成一个大文档的nested document可以压缩存储空间。把前面的mapping改成这样：

mappings = {

    'testdata': {

        '_source': {'enabled': False},

        '_all': {'enabled': False},

        'properties': {

            'children': {

                'type': 'nested',

                'properties': {

                    'name': {

                        'type': 'string',

                        'index': 'no',

                        'store': False,

                        'dynamic': 'strict',

                        'fielddata': {'format': 'doc_values'}

                    }

                }

            }

        }

    }

}

还是插入100万行，但是每一千行打包成一个大文档

words = ['hello', 'world', 'there', 'here']

def read_test_data_in_batches():

    batch = []

    for i in range(10000 * 100):

        if i % 50000 == 0:

            print(i)

        if len(batch) > 1000:

            yield [{

                '_index': 'wentao-test-doc-values2',

                '_type': 'testdata',

                '_source': {'children': batch}

            }]

            batch = []

        batch.append({'name': random.choice(words)})

    print(i)

    yield [{

        '_index': 'wentao-test-doc-values2',

        '_type': 'testdata',

        '_source': {'children': batch}

    }]

磁盘占用是

size: 2.47Mi (2.47Mi)

docs: 1,001,000 (1,001,000)

文档数没有变小，但是磁盘空间仅仅占用了2.47M。这个应该受益于lucene内部对于嵌套文档的存储优化。

Elasticsearch压缩索引——lucene倒排索引本质是列存储+使用嵌套文档可以大幅度提高压缩率的更多相关文章

ElasticSearch入门第四篇：使用C#添加和更新文档
这是ElasticSearch 2.4 版本系列的第四篇: ElasticSearch入门第一篇:Windows下安装ElasticSearch ElasticSearch入门第二篇:集群配置 E ...
读《深入理解Elasticsearch》点滴-对象类型、嵌套文档、父子关系
一.对象类型 1.mapping定义文件 "title":{ "type":"text" }, "edition":{ ...
amazon redshift 分析型数据库特点——本质还是列存储
Amazon Redshift 是一种快速且完全托管的 PB 级数据仓库,使您可以使用现有的商业智能工具经济高效地轻松分析您的所有数据.从最低 0.25 USD 每小时 (不承担任何义务) 直到每年每 ...
时间序列数据库选型——本质是列存储，B-tree索引，抑或是搜索引擎中的倒排索引
时间序列数据库最多,使用也最广泛.一般人们谈论时间序列数据库的时候指代的就是这一类存储.按照底层技术不同可以划分为三类. 直接基于文件的简单存储:RRD Tool,Graphite Whisper.这 ...
Druid.io索引过程分析——时间窗，列存储，LSM树，充分利用内存，concise压缩
Druid底层不保存原始数据,而是借鉴了Apache Lucene.Apache Solr以及ElasticSearch等检索引擎的基本做法,对数据按列建立索引,最终转化为Segment,用于存储.查 ...
OpenTSDB介绍——基于Hbase的分布式的，可伸缩的时间序列数据库，而Hbase本质是列存储
原文链接:http://www.jianshu.com/p/0bafd0168647 OpenTSDB介绍 1.1.OpenTSDB是什么?主要用途是什么? 官方文档这样描述:OpenTSDB is ...
ELK学习笔记之ElasticSearch的索引详解
0x00 ElasticSearch的索引和MySQL的索引方式对比 Elasticsearch是通过Lucene的倒排索引技术实现比关系型数据库更快的过滤.特别是它对多条件的过滤支持非常好,比如年龄 ...
elasticsearch——海量文档高性能索引系统
elasticsearch elasticsearch是一个高性能高扩展性的索引系统,底层基于apache lucene. 可结合kibana工具进行可视化. 概念: index 索引: 类似SQL中 ...
〈二〉ElasticSearch的认识：索引、类型、文档
目录上节回顾本节前言索引index 创建索引查看索引查看单个索引查看所有索引删除索引修改索引修改副本分片数量关闭索引索引别名增加索引别名: 查看索引别名: 删除索引别名: 补充 ...

随机推荐

Django - 权限（2）- 动态显示单级权限菜单
一.权限组件 1.上篇随笔中,我们只是设计好了权限控制的表结构,有三个模型,五张表,两个多对多关系,并且简单实现了对用户的权限控制,我们会发现那样写有一个问题,就是权限控制写死在了项目中,并且没有实现 ...
Python函数加工厂-装饰器
引言: 函数和装饰器好比程序界的加工厂: 1.函数一般可用来加工一种或者多种数据类型的数据:字符串.数字.列表.字典等举一个简单例子:已知半径求面积 def s(r): s = 3.14 * r * ...
再谈WinIO初始化异常
再谈WinIO初始化异常前段时间WinIO在我的新项目中总是初始化失败,有时候又是好好的,很让人费解.修改了源代码显示了很多调试信息后,也没有什么太多的收获.由于我们的工控卡必须要用这个库, ...
iOS 多线程安全与可变数组
完全来自于iOS 多线程安全与可变字典的学习基本相同,举一反三直接上样例代码是我参照网上,根据当前业务需求改的. 其实好多人在这里喜欢用类别处理.我个人觉得用类别极其容易和普通方法混淆,所以 ...
svn / git SourceTree
开发使用SourceTree 忽略文件这块老弄错,这次专门博客一下,使用CocoaPods 开发项目, 忽略步骤如下: 忽略文件内容如下 *.xcworkspace xcuserdata *.loc ...
ASP.NET MVC 4.0 中使用NPOI 2.2.0 按模板生成Excel报表
使用 NPOI 你就可以在没有安装 Office 或者相应环境的机器上对 WORD/EXCEL 文档进行读写.NPOI是构建在POI 3.x版本之上的,它可以在没有安装Office的情况下对Word/ ...
java连接zookeeper服务器出现“KeeperErrorCode = ConnectionLoss for /test”
昨天调试java连接zookeeper服务器,zookeeper搭建过程在这里不做赘述,在创建连接后,然后操作节点一直报异常错误信息如下: Exception in thread "mai ...
分布式集群Session原理及实现共享
1.什么是Session/Cookie? 用户使用网站的服务,基本上需要浏览器与Web服务器的多次交互.HTTP协议本身是无状态的,当用户的第一次访问请求结束后,后端服务器就无法知道下一次来访问的还是 ...
hadoop中mapreduce的默认设置
MR任务默认配置: job.setMapperClass() Mapper Mapper将输入的<key,value>对原封不动地作为中间结果输出 job.setMapperOutputK ...
android timed gpio (linux 3.0.0) 受时钟控制的gpio【转】
本文转载自:https://blog.csdn.net/linxi_hnh/article/details/8043417 1 路径: drivers/staging/android/timed_gp ...

Elasticsearch压缩索引——lucene倒排索引本质是列存储+使用嵌套文档可以大幅度提高压缩率