1.算法介绍 relevance score(相关性分数) 算法,简单来说,就是计算出,一个索引中的文本,与搜索文本,他们之间的关联匹配程度.Elasticsearch使用的是 term frequency/inverse document frequency算法,简称为TF/IDF算法.TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency) 1.1 Term frequency 搜索文本中的各个词条在field文本中出现了多少次,出…
Lucene Vint压缩策略是,用每个字节的最高位做标志位,后7位为有效算术位,如果标志位为1,则说明后一个字节和当前字节是同一个数字,为0说明后一个字节是一个新的数字 Lucene源代码中进行存储和读取是这样的.OutputStream是负责写: 1 /** Writes an int in a variable-length format. Writes between one and 2 * five bytes. Smaller values take fewer by…