Solr DocValues详解

前言：
在Lucene4.x之后，出现一个重大的特性，就是索引支持DocValues，这对于广大的solr和elasticsearch用户，无疑来说是一个福音，这玩意的出现通过牺牲一定的磁盘空间带来的好处主要有两个：
（1）节省内存
（2）对排序，分组和一些聚合操作时能够大大提升性能
下面来详细介绍下DocValue的原理和使用场景
（一）什么是DocValues？
DocValues其实是Lucene在构建索引时，会额外建立一个有序的基于document => field value的映射列表；
（二）为什么要用DocValues ？
基于lucene的solr和es都是使用经典的倒排索引模式来达到快速检索的目的，简单的说就是建立搜索词=》文档id列表这样的关系映射，
然后在搜索时，通过类似hash算法，来快速定位到一个搜索关键词，然后读取其的文档id集合，这就是倒排索引的核心思想，这样搜索数据
是非常高效快速的，当然它也是有缺陷的，假如我们需要对数据做一些聚合操作，比如排序，分组时，lucene内部会遍历提取所有出现在文档集合
的排序字段然后再次构建一个最终的排好序的文档集合list，这个步骤的过程全部维持在内存中操作，而且如果排序数据量巨大的话，非常容易就造成solr内存溢出和性能缓慢。
基于这个原因，在lucene4.x之后出现了docvalue这个新特性，在构建索引时会对开启docvalues的字段，额外构建一个已经排好序的文档到字段级别的一个列式存储映射，它减轻了在排序和分组时，对内存的依赖，而且大大提升了这个过程的性能，当然它也会耗费的一定的磁盘空间。
（三）什么时候应该用DocValues？

通过上面的剖析，散仙相信大家已经对DocValues有一个初步的了解了，至于它的应用场景，那么也非常明显了，总结起来主要以下几个方面：
1，需要聚合的字段，包括sort，agg，group，facet等
2，需要提供函数查询的字段
3，需要高亮的字段，这个确实能加速，但是不建议把高亮放在服务端程序做，建议放在前端实现，不容易出错而且总体性能比服务端高
4，需要参与自定义评分的字段，这个稍复杂，大多数人的场景中，不一定能用到，后面会单独写一篇文章介绍。
对于不需要参与上面任何一项的字段，可以选择关闭docvalues，这样可以节省一定的磁盘空间.
（四）DocValues的种类
在lucene的枚举类DocValuesType 中，我们可以看见它声明了六个常量：
1, NONE 不开启docvalue时的状态
2, NUMERIC 单个数值类型的docvalue主要包括（int，long，float，double）
3, BINARY    二进制类型值对应不同的codes最大值可能超过32766字节，
4, SORTED 有序增量字节存储，仅仅存储不同部分的值和偏移量指针，值必须小于等于32766字节
5, SORTED_NUMERIC   存储数值类型的有序数组列表
6, SORTED_SET     可以存储多值域的docvalue值，但返回时，仅仅只能返回多值域的第一个docvalue
通常有四种docvalue存储场景：
A：字符串或UUID字段+单值会选择SORTED作为docvalue存储
B：字符串或UUID字段+多值会选择SORTED_SET作为docvalue存储
C：数值或日期或枚举字段+单值会选择NUMERIC 作为docvalue存储
D：数值或日期或枚举字段+多值会选择SORTED_SET作为docvalue存储
注意，分词字段存储docvalue是没有意义的
（五）如何在Lucene，Solr，ElasticSearch中使用DocValues？
说完了概念方面的东西，下面来点实例的例子，来看下如何给索引加上docsvalue，只要加上docvalues后，排序，分组，聚合的时候
会自动使用docvalue提速，所以我们关注的重点是如何激活docvalue。
1，在原生Lucene中使用DocValues，这个稍麻烦，需要自定义组装，因为lucene是核心算法包，所以封装程度并不是很高，正是
由于这样，理解了lucene之后，再理解solr和elasticsearch是非常easy的。
下面是在lucene中存储docvalue例子，一个是string类型，一个是数值类型，分词类型在这里没有意义，不再提及：

//数值存储例子
FieldType num=new FieldType();
num.setStored(true);//设置存储
num.setIndexOptions(IndexOptions.DOCS);//设置索引类型
num.setNumericType(NumericType.DOUBLE);//数值类型
num.setDocValuesType(DocValuesType.NUMERIC);//DocValue类型
Document doc=new Document();
//添加string字段
doc.add(new SortedDocValuesField("id",new BytesRef("01011")));
//添加数值类型的字段 Float,Doule需要额外转成bit位才能存储，Interger和Long则不需要
doc.add(new DoubleField("price", Double.doubleToRawLongBits(25.258), num));

如何读取：

//读取索引文件
DirectoryReader reader=DirectoryReader.open(FSDirectory.open(Paths.get(indexDir)));
//如果有多个段需要merge成一个，获取第一个进行测试，本例中仅仅就有一个段
SortedDocValues str = DocValues.getSorted(reader.leaves().get(0).reader(), "id");
//数值类型
NumericDocValues db = DocValues.getNumeric(reader.leaves().get(0).reader(), "price");
//读取字符串类型的ByteRef然后打印其内容
System.out.println("id："+str.get(0).utf8ToString());
//注意此处，要与类型对应，如果是Float，则需要Float.intBitsToFloat((int)db.get(0))进行位数还原
System.out.println("price: "+Double.longBitsToDouble(db.get(0)));
reader.close();

2，在Solr中docvalue默认是全部关闭，比较严谨，大家可酌情开启

<fieldname="easy_money"type="double"indexed="true"stored="true"docValues="true" />

3，在ElasticSearch中，默认docvalue全部激活，比较简单暴力，大家可酌情关闭一些不需要使用docvalue的字段，以节省磁盘空间

"session_id":{"type":"string","index":"not_analyzed","doc_values":false}

最后再提一点，在和solr和es中，如果想要在自己写的插件中读取docvalue的值，读取方法和lucene的差不多，需要注意doule和float的的值转换

Solr DocValues详解的更多相关文章

Solr部署详解
Solr部署详解时间:2013-11-24 方式:转载目录 1 solr概述 1.1 solr的简介 1.2 solr的特点 2 Solr安装 2.1 安装JDK 2.2 安装Tomcat 2.3 ...
Solr系列三：solr索引详解（Schema介绍、字段定义详解、Schema API 介绍）
一.Schema介绍 1. Schema 是什么? Schema:模式,是集合/内核中字段的定义,让solr知道集合/内核包含哪些字段.字段的数据类型.字段该索引存储. 2. Schema 的定义方式 ...
Solr系列五：solr搜索详解（solr搜索流程介绍、查询语法及解析器详解）
一.solr搜索流程介绍 1. 前面我们已经学习过Lucene搜索的流程,让我们再来回顾一下流程说明: 首先获取用户输入的查询串,使用查询解析器QueryParser解析查询串生成查询对象Query ...
Solr高亮详解
hl.fl: 用空格或逗号隔开的字段列表.要启用某个字段的highlight功能,就得保证该字段在schema中是stored.如果该参数未被给出,那么就会高亮默认字段 standard handle ...
Solr查询详解
前言:上节是关于Solr的开发准备工作:.NET开发过程中的全文索引使用技巧之Solr(http://www.cnblogs.com/johnwood/p/3447242.html) 这节重点是讲So ...
Windows下安装solr步骤详解
Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口.用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引:也可以通过Http Get操 ...
Solr系列六：solr搜索详解优化查询结果（分面搜索、搜索结果高亮、查询建议、折叠展开结果、结果分组、其他搜索特性介绍）
一.分面搜索 1. 什么是分面搜索? 分面搜索:在搜索结果的基础上进行按指定维度的统计,以展示搜索结果的另一面信息.类似于SQL语句的group by 分面搜索的示例: http://localhos ...
Solr相关概念详解:SolrRequestHandler
转自:http://www.cnblogs.com/chenying99/archive/2012/07/24/2607339.html 1. standard (StandardRequestHan ...
Solr安装入门、查询详解
Solr安装入门:http://www.importnew.com/12607.html 查询详解:http://www.360doc.com/content/14/0306/18/203871_35 ...

随机推荐

1. docker 在 macOS 中的架构 2. 在macOS系统中，docker pull 下来的镜像存储在哪里？
docker 在 macOS 中的架构: 在macOS中,docker的实现跟在其它Linux系统中略有不同,在其它Linux系统中,操作系统本身就是docker容器的宿主机,docker镜像都是直接 ...
备忘录模式-Memento Pattern
1.主要优点备忘录模式的主要优点如下: (1)它提供了一种状态恢复的实现机制,使得用户可以方便地回到一个特定的历史步骤,当新的状态无效或者存在问题时,可以使用暂时存储起来的备忘录将状态复原. (2) ...
错误：php70w-common conflicts with php-common-5.3.3-49.el6.i686
记录一下由于之前系统自带的php5.3.3没有卸载干净: 在执行phpize时报错说需要php-devel 然后yum -y install php-delel ; 然后就报错错误:php70w ...
RedHat6.5系统LVM增加新硬盘实现根文件系统扩容
一.新增物理空间二.linux中创建新分区 1.首先查看硬盘信息,用fdisk -l命令,如果有硬盘有剩余空间就可以对其进行分区. [root@master 桌面]# fdisk -l Disk / ...
redis常用客户端命令
sentinel操作: 1.查询主节点:redis-cli -h 172.16.4.220 -p 46379 SENTINEL get-master-addr-by-name mymaster 2.查 ...
关于SD-SDI,HD-SDI,3G-SDI行号的问题
关于SD-SDI,HD-SDI,3G-SDI行号的问题 1.资料来源 2.行号的插入信号 SD-SDI mode的信号不需要行号 HD-SDI,3G-SDI mode的信号必须插入行号 3.edh的插 ...
[转]happybase1.0 报错：ThriftPy does not support generating module with path in protocol 'f'
happybase1.0 报错:ThriftPy does not support generating module with path in protocol 'f' 2016-10-12 14: ...
javascript 对象的原型
往往定义一个函数时,函数内部有关键字this时,就把这个函数当成对象,this相当于python中的self.都是对象中用到的,代表对象本身. js不像python,在函数内部定义的子函数,在每次创建 ...
安装phantomjs(Ubuntu版本 MacOS版本)
安装phantomjs(Ubuntu版本) 首先:apt-get update # 更新软件列表. apt-get upgrade # 更新软件. 其次再执行如下步骤步骤一下载包:wget http ...
大规模问题的分解法-D-W分解法
大规模线性规划问题的求解极具挑战性,在效率.存储和数值稳定性等方面对算法都有很高的要求.但是这类问题常常非常稀疏且有特殊结构,能够分解为若干个较小规模问题求解. 线性规划问题的目标函数和非负约束都可分 ...

Solr DocValues详解

Solr DocValues详解的更多相关文章

随机推荐

热门专题