lucene DocValues——没有看懂

前言：
在Lucene4.x之后，出现一个重大的特性，就是索引支持DocValues，这对于广大的solr和elasticsearch用户，无疑来说是一个福音，这玩意的出现通过牺牲一定的磁盘空间带来的好处主要有两个：

（1）节省内存

（2）对排序，分组和一些聚合操作时能够大大提升性能

下面来详细介绍下DocValue的原理和使用场景

（一）什么是DocValues？

DocValues其实是Lucene在构建索引时，会额外建立一个有序的基于document => field value的映射列表；

（二）为什么要用DocValues ？

基于lucene的solr和es都是使用经典的倒排索引模式来达到快速检索的目的，简单的说就是建立搜索词=》文档id列表这样的关系映射，

然后在搜索时，通过类似hash算法，来快速定位到一个搜索关键词，然后读取其的文档id集合，这就是倒排索引的核心思想，这样搜索数据

是非常高效快速的，当然它也是有缺陷的，假如我们需要对数据做一些聚合操作，比如排序，分组时，lucene内部会遍历提取所有出现在文档集合

的排序字段然后再次构建一个最终的排好序的文档集合list，这个步骤的过程全部维持在内存中操作，而且如果排序数据量巨大的话，非常容易就造成solr内存溢出和性能缓慢。

基于这个原因，在lucene4.x之后出现了docvalue这个新特性，在构建索引时会对开启docvalues的字段，额外构建一个已经排
好序的文档到字段级别的一个列式存储映射，它减轻了在排序和分组时，对内存的依赖，而且大大提升了这个过程的性能，当然它也会耗费的一定的磁盘空间。

（三）什么时候应该用DocValues？

通过上面的剖析，散仙相信大家已经对DocValues有一个初步的了解了，至于它的应用场景，那么也非常明显了，总结起来主要以下几个方面：

1，需要聚合的字段，包括sort，agg，group，facet等

2，需要提供函数查询的字段

3，需要高亮的字段，这个确实能加速，但是散仙并不建议把高亮放在服务端程序做，建议放在前端实现，不容易出错而且总体性能比服务端高

4，需要参与自定义评分的字段，这个稍复杂，大多数人的场景中，不一定能用到，后面会单独写一篇文章介绍。

对于不需要参与上面任何一项的字段，可以选择关闭docvalues，这样可以节省一定的磁盘空间.

（四）DocValues的种类

在lucene的枚举类DocValuesType 中，我们可以看见它声明了六个常量：

1, NONE 不开启docvalue时的状态

2, NUMERIC 单个数值类型的docvalue主要包括（int，long，float，double）

3, BINARY    二进制类型值对应不同的codes最大值可能超过32766字节，

4, SORTED 有序增量字节存储，仅仅存储不同部分的值和偏移量指针，值必须小于等于32766字节

5, SORTED_NUMERIC   存储数值类型的有序数组列表

6, SORTED_SET     可以存储多值域的docvalue值，但返回时，仅仅只能返回多值域的第一个docvalue

通常有四种docvalue存储场景：

A：字符串或UUID字段+单值会选择SORTED作为docvalue存储

B：字符串或UUID字段+多值会选择SORTED_SET作为docvalue存储

C：数值或日期或枚举字段+单值会选择NUMERIC 作为docvalue存储

D：数值或日期或枚举字段+多值会选择SORTED_SET作为docvalue存储

注意，分词字段存储docvalue是没有意义的

（五）如何在Lucene，Solr，ElasticSearch中使用DocValues？

说完了概念方面的东西，下面来点实例的例子，来看下如何给索引加上docsvalue，只要加上docvalues后，排序，分组，聚合的时候

会自动使用docvalue提速，所以我们关注的重点是如何激活docvalue。

1，在原生Lucene中使用DocValues，这个稍麻烦，需要自定义组装，因为lucene是核心算法包，所以封装程度并不是很高，正是

由于这样，理解了lucene之后，再理解solr和elasticsearch是非常easy的。

下面是在lucene中存储docvalue例子，一个是string类型，一个是数值类型，分词类型在这里没有意义，不再提及：

//数值存储例子
FieldType num=new FieldType();
num.setStored(true);//设置存储
num.setIndexOptions(IndexOptions.DOCS);//设置索引类型
num.setNumericType(NumericType.DOUBLE);//数值类型
num.setDocValuesType(DocValuesType.NUMERIC);//DocValue类型
Document doc=new Document();
//添加string字段
doc.add(new SortedDocValuesField("id",new BytesRef("01011")));
//添加数值类型的字段 Float,Doule需要额外转成bit位才能存储，Interger和Long则不需要
doc.add(new DoubleField("price", Double.doubleToRawLongBits(25.258), num));

如何读取：

//读取索引文件
DirectoryReader reader=DirectoryReader.open(FSDirectory.open(Paths.get(indexDir)));
//如果有多个段需要merge成一个，获取第一个进行测试，本例中仅仅就有一个段
SortedDocValues str = DocValues.getSorted(reader.leaves().get(0).reader(), "id");
//数值类型
NumericDocValues db = DocValues.getNumeric(reader.leaves().get(0).reader(), "price");
//读取字符串类型的ByteRef然后打印其内容
System.out.println("id："+str.get(0).utf8ToString());
//注意此处，要与类型对应，如果是Float，则需要Float.intBitsToFloat((int)db.get(0))进行位数还原
System.out.println("price: "+Double.longBitsToDouble(db.get(0)));
reader.close();

2，在Solr中docvalue默认是全部关闭，比较严谨，大家可酌情开启

<fieldname="easy_money"type="double"indexed="true"stored="true"docValues="true" />

3，在ElasticSearch中，默认docvalue全部激活，比较简单暴力，大家可酌情关闭一些不需要使用docvalue的字段，以节省磁盘空间

"session_id":{"type":"string","index":"not_analyzed","doc_values":false}

摘自：http://qindongliang.iteye.com/blog/2297280

lucene DocValues——没有看懂的更多相关文章

[转]看懂UML类图
这里不会将UML的各种元素都提到,我只想讲讲类图中各个类之间的关系: 能看懂类图中各个类之间的线条.箭头代表什么意思后,也就足够应对日常的工作和交流: 同时,我们应该能将类图所表达的含义和最终的代码 ...
看懂Oracle执行计划
最近一直在跟Oracle打交道,从最初的一脸懵逼到现在的略有所知,也来总结一下自己最近所学,不定时更新ing- 一:什么是Oracle执行计划? 执行计划是一条查询语句在Oracle中的执行过程或访问 ...
一张图看懂ANSYS17.0 流体新功能与改进
一张图看懂ANSYS17.0 流体新功能与改进提交我的留言加载中已留言一张图看懂ANSYS17.0 流体新功能与改进原创2016-02-03ANSYS模拟在线模拟在线模拟在线 ...
怎样看懂Oracle的执行计划
怎样看懂Oracle的执行计划一.什么是执行计划 An explain plan is a representation of the access path that is taken when ...
看懂SqlServer查询计划【转】
原文链接:http://www.cnblogs.com/fish-li/archive/2011/06/06/2073626.html 开始 SQL Server 查找记录的方法 SQL Server ...
看懂UML类图
这里不会将UML的各种元素都提到,我只想讲讲类图中各个类之间的关系: 能看懂类图中各个类之间的线条.箭头代表什么意思后,也就足够应对日常的工作和交流: 同时,我们应该能将类图所表达的含义和最终的代码 ...
[转]看懂ExtJS的API
原文地址:http://www.cnblogs.com/youring2/archive/2013/03/05/2944004.html ExtJS的功能很强大,相应的其API也很庞大,并且看起来并不 ...
看懂UML类图与时序图
看懂UML类图和时序图这里不会将UML的各种元素都提到,我只想讲讲类图中各个类之间的关系: 能看懂类图中各个类之间的线条.箭头代表什么意思后,也就足够应对日常的工作和交流: 同时,我们应该能将类图 ...
亲子之间，在于看懂，无关耐心zz
每当有人告诉我:『你对孩子真有耐心!』时,我总会想起我的金项链,当越来越多人说的时候,我就越想找出来,我翻箱倒柜的找,越心急却越找不到,那一条金项链从我十八岁那一年一直戴在我的脖子上一直到女儿两岁, ...

随机推荐

functools内置装饰器
def update_wrapper(wrapper, wrapped, assigned = WRAPPER_ASSIGNMENTS, updated = WRAPPER_UPDATES): def ...
PHP include和require 区别
require 的使用方法如 require("MyRequireFile.php"); .这个函数通常放在 PHP 程序的最前面,PHP 程序在执行前,就会先读入 require ...
（4）主成分分析Principal Component Analysis——PCA
主成分分析Principal Component Analysis 降维除了便于计算,另一个作用就是便于可视化. 主成分分析-->降维--> 方差:描述样本整体分布的疏密,方差越大-> ...
POJ-2590-Steps题目详解，思路分析及代码，规律题，重要的是找到规律~~
Steps Time Limit: 1000MS Memory Limit: 65536K http://poj.org/problem?id=2590 Description One ...
K-means算法-聚类
算法过程如下: 1)从N个文档随机选取K个文档作为质心 2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类 3)重新计算已经得到的个各类的质心 4)迭代2~3步直至新的质心与原质心相 ...
FLEX中restrict限定TextInput输入
restrict限制的意思 1. 限制某个字符的输入,用符号 ^ 跟上要限制的字符,可跟多个字符  <mx:TextInp ...
Xcode warning: code will never be executed.
在xcode编译的时候,提示了code will never be executed这个警告.百度了一下,大体的意思是,该代码永远不会执行的意思. 比如: - (void)setMyStyle:(Ad ...
P1427 小鱼的数字游戏洛谷
https://www.luogu.org/problem/show?pid=1427 题目描述小鱼最近被要求参加一个数字游戏,要求它把看到的一串数字(长度不一定,以0结束,最多不超过100个,数字 ...
洛谷——P3225 [HNOI2012]矿场搭建
P3225 [HNOI2012]矿场搭建题目描述煤矿工地可以看成是由隧道连接挖煤点组成的无向图.为安全起见,希望在工地发生事故时所有挖煤点的工人都能有一条出路逃到救援出口处.于是矿主决定在某些挖煤 ...
ArcGIS engine中Display类库——Display
转自原文 ArcGIS engine中Display类库——Display Display类库包括了用于显示GIS数据的对象.除了负责实际输出图像的主要显示对象(display object)外,这 ...

lucene DocValues——没有看懂

lucene DocValues——没有看懂的更多相关文章

随机推荐

热门专题