Solr 6.7学习笔记(02)-- 配置文件 managed-schema (schema.xml)(1)
刚学Solr(版本6.7.0),新建一个core时,提示要求schema.xml文件,我找了半天也没在源码包中找到名为schema.xml的文件。这个版本其实用的是managed-schema文件,没学过以前的版本,所以不知道是从哪个版本开始不使用schema.xml的,其实内容都一样,搞不懂为啥要换个名字,而且内容格式是xml,但是文件名却没有.xml的后辍。个人感觉是吃饱了撑的。
为了学习方便,我是在windows下做的,以下{Solr.home}是指解压后的文件目录。在{Solr.home}\bin下运行 solr -e techproducts, 这样我们就能在{Solr.home}\example\techproducts\solr\techproducts\conf 下找到managed-schema文件,文件有很详细的注释,下面的文件就是以那个文件为基础进行的一些翻译。
边学边写,关于Solr的学习笔记中,有很多内容来自《Solr in action》和apache给出的guide,加上了一些自己的理解,有可能有表达错误的地方,以后学深入,再回头来改。
managed-schema中主要有以下几种元素:
1. <field>
定义Solr索引的document里的字段,这个一般是根据具体的搜索应用来定义需要有什么字段。有三个特殊一点的字段,分别是:"_version_", "_root_" 和 "id",详见最后面的sample文件。
| 属性 | 默认值 | 说明 |
| name | 必须,不能取名score,前后辍为下划线的名字(如:_VERSION_)为保留名字 | |
| type | 必须。值为定义的<fieldType> | |
| indexed | true | 是否进行索引。 true的时候进行索引。 |
| stored | true | 是否存储。如果此字段的值需要显示在搜索结果中,则需要进行存储。 |
| docValues | false |
是否需要存储docValues。docValues用于提升sorting, faceting, grouping, function queries 等性能,现在仅支持StrField, UUIDFiel和所有的Trie*Fields和 *PointFields、日期字段和枚举字段, 此值为true的字段要求此字段 multiValued=false, 并且 (required=true或设置了default的值). |
| multiValued | false | 是否有多个值。 |
| omitNorms | 见下面的说明 | |
| termVectors | false | 设置为true,使More Like This特性生效,会极大的增加索引文件的大小。 |
| termPositions | false | 通常用于提高高亮搜索结果这一功能的性能。设置为true,会增加索引文件的大小。 |
| termOffsets | false | 通常用于提高高亮搜索结果这一功能的性能。设置为true,会增加索引文件的大小。 |
| termPayloads | false | 通常用于提高高亮搜索结果这一功能的性能。设置为true,会增加索引文件的大小。 |
| required | false | 如果设置为true,则索引时,如果此字段值为null,则会报错。 |
| default | 此字段的默认值。通常用于记录索引生成的当前时间 | |
|
sortMissingFirst sortMissingLast |
false | 需要对搜索结果根据某个字段排序时,如果某条记录的此字段值为空,则该记录是排在搜索结果的最前/最后 |
|
omitTermFreqAndPositions |
对所有不是文本类型的字段,默认为TRUE | |
|
omitPositions |
与omitTermFreqAndPositions相似,只是仅忽略位置信息 | |
|
useDocValuesAsStored |
当docValues=true时,设置此值为TRUE,则如果返回的字段列表使用了通配符,即使此字段设置了stored=false, 此字段还是会出现在返回的结果里, |
|
|
large |
false |
设置为TRUE时,需要设置stored=true和multiValued=false, 表示此字段是大字段,会被懒加载。 通常用于此字段的内容可能比较大,不需要载入内存 |
对一些属性的详细点的说明:
omitNorms:
norm是基于document length norm,document boost和field boost计算出的浮点(float)值。这里的boost可以理解为权重。document length norm用于为较小的document增加权重(权重较大的话,计算搜索结果的score值会更高一点)。也就是说如果有一个比较小的document和一个比较长的document都符合搜索条件,Lucene会认为那个较小的document相对于较长的document更新符合搜索条件。omitNorms是指忽略norm,所以设为false时,较小的document和较长的document有相同的权重。因此如果我们需要为某个字段在索引时进行加权(boost),则应该设置为false。当字段类型为基本类型(比如:int, float,date,bool. string)时此默认值是true。
termVectors, termPositions, termOffsets 和 termPayloads :
此四个属性通常用于 hl.useFastVectorHighlighter为true时的情况,会较大地增加索引大小
omitTermFreqAndPositions:
如果为TRUE,索引时将忽略频率、位置、负载等信息,这有助于提升不需要这些信息的字段的性能,也会减少索引大小。但是查询如果依赖于字段的位置信息,则会导致查询不到相关document。
上一篇:
Solr6.7 学习笔记(01) -- 目录结构
Solr 6.7学习笔记(02)-- 配置文件 managed-schema (schema.xml)(1)的更多相关文章
- Solr 6.7学习笔记(02)-- 配置文件 managed-schema (schema.xml) -- 样例(6)
managed-schema 样例: <?xml version="1.0" encoding="UTF-8" ?> <!-- License ...
- Solr 6.7学习笔记(02)-- 配置文件 managed-schema (schema.xml) - filter(5)
自定义fieldType时,通常还会用到filter.filter必须跟在tokenizer或其它filter之后.如: <fieldType> <analyzer> < ...
- Solr 6.7学习笔记(02)-- 配置文件 managed-schema (schema.xml)(3)
5. <fieldType> fieldType主要定义了一些字段类型,其name属性值用于前面<field>中的type属性的值.e.g. <fieldTyp ...
- Solr 6.7学习笔记(04)-- Suggest
当我们使用baidu或者Google时,你输入很少的字符,就会自动跳出来一些建议选项,在Solr里,我们称之为Suggest,在solrconfig.xml里做一些简单的配置,即可实现这一功能.配置如 ...
- 软件测试之loadrunner学习笔记-02集合点
loadrunner学习笔记-02集合点 集合点函数可以帮助我们生成有效可控的并发操作.虽然在Controller中多用户负载的Vuser是一起开始运行脚本的,但是由于计算机的串行处理机制,脚本的运行 ...
- 机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN)
机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN) 关键字:邻近算法(kNN: k Nearest Neighbors).python.源 ...
- OpenCV 学习笔记 02 使用opencv处理图像
1 不同色彩空间的转换 opencv 中有数百种关于不同色彩空间的转换方法,但常用的有三种色彩空间:灰度.BRG.HSV(Hue-Saturation-Value) 灰度 - 灰度色彩空间是通过去除彩 ...
- SaToken学习笔记-02
SaToken学习笔记-02 如果排版有问题,请点击:传送门 常用的登录有关的方法 - StpUtil.logout() 作用为:当前会话注销登录 调用此方法,其实做了哪些操作呢,我们来一起看一下源码 ...
- Redis:学习笔记-02
Redis:学习笔记-02 该部分内容,参考了 bilibili 上讲解 Redis 中,观看数最多的课程 Redis最新超详细版教程通俗易懂,来自 UP主 遇见狂神说 4. 事物 Redis 事务本 ...
随机推荐
- GitHub基本使用
什么是GitHub? GitHub是用于版本控制和协作的代码托管平台.它可以让您和其他人在任何地方一起工作 本教程教你如GitHub必需资源,如仓库,分支,提交和拉请求.您将创建自己的Hello Wo ...
- (转)Java 调用 C++ (Java 调用 dll)
转自: http://www.cnblogs.com/baokang/p/4979243.html 因为要做点图形处理的项目,需要在Java中调用dll库,所以开发的第一步是研究了一下Java Jni ...
- linux命令学习笔记(6):rmdir 命令
今天学习一下linux中命令: rmdir命令.rmdir是常用的命令,该命令的功能是删除空目录,一个目录 被删除之前必须是空的.(注意,rm - r dir命令可代替rmdir,但是有很大危险性.) ...
- poj3252 Round Numbers[数位DP]
地址 拆成2进制位做dp记搜就行了,带一下前导0,将0和1的个数带到状态里面,每种0和1的个数讨论一下,累加即可. WA记录:line29. #include<iostream> #inc ...
- LOJ2722 「NOI2018」情报中心
「NOI2018」情报中心 题目描述 C 国和D 国近年来战火纷飞. 最近,C 国成功地渗透进入了D 国的一个城市.这个城市可以抽象成一张有$n$ 个节点,节点之间由$n - 1$ 条双向的边连接的无 ...
- 【队列】最大值减去最小值小于等于num的子数组数量
摘自<程序员代码面试指南> 题目: 给定数组 arr 和整数 num, 共返回有多少个⼦数组满⾜如下情况:max(arr[i...j]) - min(arr[i...j]) <= n ...
- IDEA使用maven中tomcat插件来启动服务器配置
一 .在项目pom文件中配置tomcat 先添加如下配置: <!-- 配置Tomcat插件 --> <build> <plugins> <plugin> ...
- javascript:function 函数声明和函数表达式 详解
函数声明(缩写为FD)是这样一种函数: 有一个特定的名称 在源码中的位置:要么处于程序级(Program level),要么处于其它函数的主体(FunctionBody)中 在进入上下文阶段创建 影响 ...
- Operating System-进程/线程内部通信-竞争条件(Race Conditions)
从本文开始介绍进程间的通信,进程间通信遇到的问题以及方式其实和线程之间通信是一致的,所以进程间通信的所有理论知识都可以用在线程上,接下来的系列文章都会以进程之间的通信为模版进行介绍,本文主要内容: 进 ...
- 用遗传算法解决TSP问题
浅谈遗传算法:https://www.cnblogs.com/AKMer/p/9479890.html Description \(小m\)在踏上寻找\(小o\)的路程之后不小心碰到了大魔王\(fat ...