Solr基础理论【相关度计算】】的更多相关文章

一.简介 寻找匹配的文档是构建优质搜索体验的关键步骤,但这仅仅是第一步.大多数用户不愿意通过逐页翻阅搜索结果来找到想要的文档.根据一般经验,仅有10%的用户在网页搜索中有意愿继续翻阅第一页以后的搜索结果,仅有1%的用户会翻看到第三页结果.Solr实现了搜索结果排序,最佳的结果位于列表顶端.它会计算每个文档的相关度得分,并从高到低对搜索解决进行排序. 二.默认相似度 solr的相似度得分基于Similarity类.这个类被定义为一个预置字段.Similarity是一个Java类,它根据给定的查询定…
一.排名检索 搜索引擎代表了基于查询,返回优先文档的一种方法.在关系型数据库的SQL查询中,表的一行要么匹配一个查询,要么不匹配,查询结果基于一列或多列排序.搜索引擎根据文档与查询匹配的程度为文档打分,并按降序返回结果.匹配程度的计算取决于多个因素,一般而言,文档得分越高意味着该文档与查询的相关性越强. 在Solr中会存在单独的字段保存相关性,那就是score字段.在score字段的得分数值并非具有绝对意义,它在lucene内部仅作为相对排名,而且同一文档在不同的查询中的得分并无关系.也就是说,…
关键词句和文本集每篇文章相关度计算:假设语料库中有几万篇文章,每篇文章的长度不一,你任意输入关键词或句子,通过代码以tf-idf值为准检索出来相似度高的文章. 1.TF-IDF概述 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度.字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降.TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级. TFIDF的主要思想是:如果某个词或短…
1. solr基础 因为 Solr 包装并扩展了 Lucene,所以它们使用很多相同的术语.更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容.通过对 Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引. 在 Solr 和 Lucene 中,使用一个或多个 Document 来构建索引.Document 包括一个或多个 Field.Field 包括名称.内容以及告诉 Solr 如何处理内容的元数据.例如,Fi…
一.简介 现有的许多不同类型 的技术系统,如关系型数据库.键值存储.操作磁盘文件的map-reduce[映射-规约]引擎.图数据库等,都是为了帮助用户解决颇具挑战性的数据存储与检索问题而设计的.而搜索引擎,尤其是Solr,致力于解决一类特定的问题:搜索大量非结构化的文本数据,并返回最相关的搜索结果. 二.文档 Solr是一个文档存储与检索引擎.提交给solr处理的每一份数据都是一个文档.文档可以是一篇新闻报道.一份简历.社交用户信息,甚至是一本书. 每个文档包含一个或多个字段,每个字段被赋予具体…
一.简介 Solr的搜索主要由两个操作组成:找到与请求参数相匹配的文档:对这些文档进行排序,返回最相关的匹配文档.默认情况下,文档根据相关度进行排序.这意味着,找到匹配的文档集之后,需要另一个操作来计算每个匹配文档的相关度得分. 二.fq和q参数 为有效地查找匹配的文档和计算文档的相关度得分,Solr会用到两个参数:fq和q.fq参数表示过滤器查询,q参数表示查询.初看这两个参数可能不太好区分,因为相同的查询语法传递到这两个参数中会返回相同数量的文档.因此,许多搜索请求中只使用单个q参数.但是理…
一.选择响应格式 XML是Solr的默认响应格式.从Solr的角度看,什么样的响应格式并不重要.Solr可以返回XML.JSON.Ruby.Python.PHP.二进制Java等,甚至是自定义格式.使用wt参数修改响应格式.Solr的wt参数的可用格式如下: 当需要更改Solr的响应格式时,需要在请求中将wt参数设置为你需要的类型.例如: 使用wt请求参数可以轻松地配置Solr的响应格式.如有需要,还可以为搜索应用编写专门的响应格式.为此,需要编写一个继承Solr的QueryResponseWr…
记录下,在上2回的数据基础之上,附带一个互信息(MI,Mutual Information)可以计算词之间的相关度 标准互信息 MI(X,Y)=log2p(x,y)/p(x)p(y) 值越大于0 则趋于更相关,反之则互补. 通过查询得到词的数据,以及词组的共现数量,然后到Matlabe里计算下. 我选择了其中一个总词量为30993453的库做为源 通过查询可知以下内容, 北京(词数)=40998 喜爱(词数)=878 联合(共现数)=75 相关度计算结果 log10(30993453/40998…
添加索引模板: <add> <doc> <field name="employeeId">05991</field> <field name="office">Bridgewater</field> <field name="skills">Perl</field> <field name="skills">Java&l…
Solr采用Lucene搜索库为核心,提供全文索引和搜索开源企业平台,提供REST的HTTP/XML和JSON的API,如果你是Solr新手,那么就和我一起来入门吧!本教程以solr4.8作为测试环境,jdk版本需要1.7及以上版本. 准备 本文假设你对Java有初中级以上水平,因此不再介绍Java相关环境的配置.下载解压缩solr,在example目录有start.jar文件,启动: 1 java -jar start.jar 浏览器访问:http://localhost:8983/solr/…