什么是docValues？

docValues是一种记录doc字段值的一种形式，在例如在结果排序和统计Facet查询时，需要通过docid取字段值的场景下是非常高效的。

为什么要使用docValues？

这种形式比老版本中利用fieldCache来实现正排查找更加高效，更加节省内存。倒排索引将字段内存切分成一个term列表，每个term都对应着一个docid列表，这样一种结构使得查询能够非常快速，因为term对应的docid是现成就有的。但是，利用它来做统计，排序，高亮操作的时候需要通过docid来找到，field的值却变得不那么高效了。之前lucene4.0之前会利用fieldCache在实例启动的时候预先将倒排索引的值load到内存中，问题是，如果文档多会导致预加载耗费大量时间，还会占用宝贵的内存资源。

索引在lucene4.0之后引入了新的机制docValues，可以将这个理解为正排索引，是面向列存储的。

DocValues和 field的存储值（field属性设置为stored=“true”）有什么区别？

docValues和document的stored=ture存储的值，都是正排索引，单也是有区别的：

l 存储方式：

DocValues是面向列的存储方式，stored=true是面向行的存储方式，如果通过fieldid取列的值可定是用docValues的存储结构更高效。

l 是否分词：

Stored=true的存储方式是不会分词的，会将字段原值进行保存，而docValues的保存的值会进行分词。

DocValues的实现

docValues的类型：

查了一下lucene的源码，发现DocValues有四种实现方式：

Memory

l 实现类：org.apache.lucene.codecs.memory.MemoryDocValuesFormat

运行时正排数据会全部加载到内存中，这部分数据在内存中是压缩存储的

Direct

l 实现类：org.apache.lucene.codecs.memory.DirectDocValuesFormat

导入到内存中不压缩使用，这个实际使用的效果应该和老版本的fieldcache差不多吧

SimpleText

l 实现类：org.apache.lucene.codecs.simpletext.SimpleTextDocValuesFormat

这个只是当娱乐只用，不用在环境中使用

以上三种类型定义在lucene-codecs-5.3.0.jar的META-INF/services目录下

Lucene50（默认使用）

l 实现类：org.apache.lucene.codecs.lucene50.Lucene50DocValuesFormat

Lucene50定义存放在lucene-core-5.3.0.jar的META-INF/services目录下

Lucene50的实现方式和Memory的实现方式大同小异，支持的字段类型更加丰富

在lucene50中将docValues的值分成5种类型：

Numeric
Binary
Sorted
SortedSet
SortedNumeric

类型是由Schema中的field类型决定的：

l StrField或者UUIDField

如果字段不是多值字段，则类型是SORTED

如果是多值字段，则类型是SORTED_SET

l 数值字段Trie*或者EnumField

如MultiValue=false，则NUMERIC

如MultiValued=true，则SORTED_SET

如何使用

Schema field字段设置

<field name="manu_exact"

type="string" indexed="false" stored="false"

docValues="true" />

另外可以通过fieldtype的docValuesFormat属性来设置docValue的实现策略：

<fieldType name="string_in_mem_dv"

class="solr.StrField" docValues="true"

docValuesFormat="Memory" />

总结

如果在索引上要进行facet，gourp，highlight等查询尽量使用docValue，这样不用为内存开销烦恼了。

例如：solr4.0之后都会需要在schema中设置一个_version_字段来实现对文档的原子操作，为了节省内存，可以加上docValues：

<field name="_version_"

type="long" indexed="true" stored="true" docValues="true"/>

一个朋友分析得不错的

http://blog.csdn.net/zteny/article/details/60633374

apache官方说明：

https://cwiki.apache.org/confluence/display/solr/DocValues

转自：http://mozhenghua.iteye.com/blog/2275932

lucene DocValues——本质是为通过docID查找某field的值的更多相关文章

lucene DocValues——本质是为通过docID查找某field的值看图
Why DocValues? The standard way that Solr builds the index is with an inverted index. This style bui ...
C语言：将ss所指字符串中所有下标为奇数位上的字母转换成大写，若不是字母，则不转换。-删除指针p所指字符串中的所有空白字符（包括制表符，回车符，换行符）-在带头结点的单向链表中，查找数据域中值为ch的结点，找到后通过函数值返回该结点在链表中所处的顺序号，
//将ss所指字符串中所有下标为奇数位上的字母转换成大写,若不是字母,则不转换. #include <stdio.h> #include <string.h> void fun ...
lucene DocValues——没有看懂
前言: 在Lucene4.x之后,出现一个重大的特性,就是索引支持DocValues,这对于广大的solr和elasticsearch用户,无疑来说是一个福音,这玩意的出现通过牺牲一定的磁盘空间带来的 ...
Elasticsearch压缩索引——lucene倒排索引本质是列存储+使用嵌套文档可以大幅度提高压缩率
注意:由于是重复数据,词法不具有通用性!文章价值不大! 摘自:https://segmentfault.com/a/1190000002695169 Doc Values 会压缩存储重复的内容. 给定 ...
421. Maximum XOR of Two Numbers in an Array——本质：利用trie数据结构查找
Given a non-empty array of numbers, a0, a1, a2, - , an-1, where 0 ≤ ai < 231. Find the maximum re ...
使用FindControl("id")查找控件返回值都是Null的问题
做了一个通过字符串ID查找页面控件并且给页面控件赋值的功能,过程中遇到了this.FindControl("id")返回值都是Null的问题,记录一下解决办法. 问题的原因是我所要 ...
mysql查找以逗号分隔的值-find_in_set
有了FIND_IN_SET这个函数.我们可以设计一个如:一只手机即是智能机,又是Andriod系统的. 比如:有个产品表里有一个type字段,他存储的是产品(手机)类型,有 1.智能机,2.Andri ...
C#算法设计查找篇之03-插值查找
插值查找(Interpolation Search) 该文章的最新版本已迁移至个人博客[比特飞],单击链接 https://www.byteflying.com/archives/701 访问. 插值 ...
JavaScript 数组中查找符合条件的值
数组实例的find方法,用于找出第一个符合条件的数组成员.它的参数是一个回调函数,所有数组成员依次执行该回调函数,直到找出第一个返回值为true的成员,然后返回该成员.如果没有符合条件的成员,则返回u ...

随机推荐

一个爬取lativ诚衣网站上模特穿搭图片的爬虫
show the code: [peter@localhost savvy]$ vi lativ.py # -*- coding:utf-8 -*- import requests,lxml,os f ...
POJ 2478 欧拉函数打表的运用
http://poj.org/problem?id=2478 此题只是用简单的欧拉函数求每一个数的互质数的值会超时,因为要求很多数据的欧拉函数值,所以选用欧拉函数打表法. PS:因为最后得到的结果会很 ...
常见Bean映射工具分析评测及Orika介绍
原地址:http://tech.dianwoda.com/2017/11/04/gao-xing-neng-te-xing-feng-fu-de-beanying-she-gong-ju-orika/ ...
idea与eclipse项目相互导入的过程
idea项目导出到桌面很简单,直接去项目所在目录考出即可,但是考出的项目往往都特别大,这是因为考出之前我们不要忘记把idea的输出目录删除每次启动服务器运行idea项目的时候都会有一个输出 ...
C#中的各种排序算法
原文发布时间为:2008-11-26 -- 来源于本人的百度文章 [由搬家工具导入] C#算法（一）选择排序using System;public class SelectionSorter{ ...
Codeforces 848C （cdq分治）
Codeforces 848C Goodbye Souvenir Problem : 给一个长度为n的序列,有q个询问.一种询问是修改某个位置的数,另一种询问是询问一段区间,对于每一种值出现的最右端点 ...
POJ 2135 最小费用最大流入门题
Farm Tour Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 19207 Accepted: 7441 Descri ...
Java数组操作方法收集（快速判断某个值在这个数组中）
Java数组操作最高效的方式是循环取值,如果转换成集合那么就会分配内存,效率不如前者,但是方法多,需要在性能调优上去权衡.切记:数组是数组,集合是集合. 下面是收集最常用的数组转成集合的操作方法: i ...
Java中文件和I/O
以下内容引用自http://wiki.jikexueyuan.com/project/java/files-and-io.html: 在Java中java.io包含的每一个类几乎都要进行输入和输出操作 ...
sql多表更新
--sql多表更新update PMS_Financial_Gathering set ShouldMoney=PMS_Contract_RentScheme.Rentfrom PMS_Financi ...

lucene DocValues——本质是为通过docID查找某field的值