Solr打分出错】的更多相关文章

solr支持给某Field打分,在验证的过程的过程中出现错误:ERROR: [doc=likehua] cannot set an index-time boost, unindexed or norms are omitted for field id: likehua. 而我的操作是给id打分,去掉给id打分以后问题解决.虽然问题解决,但是还是让我很纳闷,难道id不能打分.根据错误信息提示,应该需要在schema.xml中id字段增加一个什么属性能解决这个错误,经过搜索,在id字段那加一个“…
以下来自solr in action. 包含: 词项频次.查询词项出现在当前查询文档中的次数. 反向文档频次.查询词项出现在所有文档总的次数. 此项权重. 标准化因子: 字段规范: 文档权重. 字段权重. 长度归一化.消除长文档的优势.因为长文档的词项频次一般会比较大. 协调因子.避免一个文档中出现某一个词项的次数太多导致总分值太大.目的是让结果中包含更多的是出现所有词项的文档. 具体说明见下文. 以下转载自网络.原文地址: http://tec.5lulu.com/detail/110d8n2…
在搭建好solrCloud搜索集群后,通过编写基本的查询显示语句已经能够通过输入关键字查询到相应结果进行显示,但是在显示结果排序上以及不相关信息过滤问题上,如何制定合理的打分规则得到理想的结果集确实比较麻烦的.Solr本身的排序打分规则是继承自Lucene的文本相关度的打分即boost,这一套算法对于通用的提供全文检索的服务来讲,已经够用了,但是想要根据实际业务需求定制自己的打分机制来获取理想的查询结果,文本相关度的打分是远远不够的. 如何来定制实际业务需求的的排序打分规则(boost)呢?经过…
说明:由于solr底层使用的是lucene,因此修改solr打分机制归根结底还是依赖于lucene的打分机制,本文主要讨论lucene的打分机制. 本文说明lucene 常用的四种影响评分结果的方式. 1.document设置boost 2.Field设置boost 3.查询时设置boost 4.扩展Similarity实现. 一.document设置boost: 暂缺. 二.Field设置boost: 暂缺. 三.查询时设置boost: 暂缺. 四.扩展Similarity实现: 暂缺.…
Solr基本的三个XML配置文件: solr.xml: solr 日志.shard.solrcould等配置 solrconfig.xml: 某个solr core的配置 schema.xml:某个solr core的索引结构的配置,包含field 和field类型 这一章主要介绍solrconfig.xml, 某个solr core的配置. 1.Core的发现过程 扫描启动某个core的过程是这种:Solr webserver依据配置的java System Property(solr.sol…
1.官网上下载solr(http://lucene.apache.org/solr/)和tomcat(http://tomcat.apache.org/) 测试用到的版本:solr-6.2.1.apache-tomcat-8.0.36 2.安装JDK,版本必须为1.8,测试用到的的版本为jdk1.8.0_102. 3.解压solr-6.2.1.zip. 4.将solr-6.2.1\server\solr-webapp\webapp目录拷贝到tomcat下的webapps目录下,将将拷贝后的目录重…
有时候默认的字段打分不能满足我们的需要,如我们想把关键词出现在标题中的优先显示. 测试于:Solr 4.5.1, Jdk 1.6.0_45, Tomcat 6.0.37 | CentOS 5.7 实现方法有3个: 在建索引的时候设置boost,这个值会写入文件,建索引时有额外的性能开销: 在查询的时候指定boost,这个值不会写入文件,查询时指定任意字段的boost值,适用与一个索引库的多种查询场景,但查询时有额外性能开销: (推想)前两者结合使用,如绝大多数都需要标题优先,那么建索引时可指定标…
1.字段 Filed:<field name="_id" type="text_ik" indexed="true" stored="true" required="true" multiValued="false" /> name:字段名 type:字段类型,影响分词结果 indexed:是否需要索引 stored:是否需要存储 required:是否唯一 multiVal…
使用Solr搭建搜索引擎很容易,但是如何制定合理的打分规则(boost)做排序却是一个很头痛的事情.Solr本身的排序打分规则是继承自Lucene的文本相关度的打分即boost,这一套算法对于通用的提供全文检索的服务来讲,已经够用了,但是对于一些专门领域的搜索来讲,文本相关度的打分是不合适的. 如何来定制适合自身业务的排序打分规则(boost)呢?经过这段时间的思考与实践,想到了如下三个方法 1.定制Lucene的boost算法,加入自己希望的业务规则: 2.使用Solr的edismax实现的方…
启动solr的时候,居然出现了如下的错误: org.apache.solr.common.SolrException: RequestHandler init failure        at org.apache.solr.core.SolrCore.<init>(SolrCore.java:794)        at org.apache.solr.core.SolrCore.<init>(SolrCore.java:607)        at org.apache.so…
copyField的dest字段all本身有分析器处理:假设为mmseg4j name,title,description三个字段都复制到all字段上:其中title和description都是mmseg4j分析器的字段类型:name是string类型: 搜索all上的"黄海波视频"-------------则出现的结果是: 'parsedquery'=>'(+DisjunctionMaxQuery((((personName:黄海波视频)^10.0) | (descriptio…
2010-10 目 录 1 1.1 1.2 1.2.1 1.2.2 1.2.3 1.2.4 1.2.5 1.2.6 1.2.7 1.3 1.3.1 1.3.2 1.4 1.4.1 1.4.2 1.4.3 1.5 1.5.1 1.5.2 1.6 2 2.1 2.1.1 2.1.2 2.1.3 2.2 2.2.1 2.2.2 2.3 2.3.1 2.3.2 2.4 2.4.1 2.4.2 3 3.1 3.1.1 3.1.2 3.2 3.2.1 3.2.2 3.2.3 3.3 3.3.1 3.3.2…
一直想接触下搜索,虽然之前也玩了下solr,但一直没深入,所以也都忘得差不多了,现在solr都6.1了,发展真快.重新拾起,记录下也好,为以后出问题查找起来快一点. 1.搜索最重要的概念就是倒排索引, 通过分词,建立 分词后的一个一个 词 的倒排索引. solr环境搭建 1.solr 6 需要 jdk1.8 和tomcat 8, 下载jdk1.8,下载solr6.1,下载 zookeeper 3.4.8,并按步骤 安装配置好 jdk 和 zookeeper (参考 http://www.cnbl…
全文检索引擎 Solr 部署与基本原理 搜索引擎Solr环境搭建实例 关于 solr , schema.xml 的配置说明 全文检索引擎Solr系列-–全文检索基本原理 一.搜索引擎Solr环境搭建实例 Solr服务器采用java5开发的,是基于Lucene全文搜索的.要想搭建Solr,首先进行java环境的配置,安装对应的jdk以及tomcat,在此就不多讲. 以下是在jdk1.7和tomcat1.7的环境下搭建最新版本的solr4.10.3. 具体步骤如下: 1.到官网http://luce…
文本分析时搜索引擎的核心工作之一,对文本包含许多处理步骤,比如:分词.大写转小写.词干化.同义词转化等.简单的说,文本分析就说将一个文本字段的值转为一个一个的token,然后被保存到Lucene的索引结构中被将来搜索用.当然,文本分析不仅在建立索引时有用,在查询时对对所输入的查询串也一样可以进行文本分析.在 Solr Schema设计 中我们介绍了许多Solr中的字段类型,其中最重要的是solr.TextField,这个类型可以进行分析器配置来进行文本分析. 接下来我们先来说说什么是分析器. 分…
solr集群中配置文件是经常更新的,频率最高的也就是schema.xml和solrconfig.xml这两个配置文件了,对于更新配置文件之前,我们先了解一下集群项目结构 由于在集群模式下,solrconfig.xml和schema.xml等配置文件都由Zookeeper集群管理,所以本地项目中只保留单一shard分片,各个collections分片保存位置是solr根目录下的server/solr/下,这个目录下有一个solr.xml文件,然后可以随便进入一个shard目录,可以看到只有一个da…
背景: 某电信项目中采用HBase来存储用户终端明细数据,供前台页面即时查询.HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级 的快 速检索,对于多字段的组合查询却无能为力.针对HBase的多条件查询也有多种方案,但是这些方案要么太复杂,要么效率太低,本文只对基于Solr的 HBase多条件查询方案进行测试和验证. 原理: 基于Solr的HBase多条件查询原理很简单,将HBase表中涉及条件过滤的字段和rowkey在Solr中建立索引,通过Solr的多条件查询快速获得符合过滤条…
http://wiki.apache.org/solr/ Solr调研总结 开发类型 全文检索相关开发 Solr版本 4.2 文件内容 本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试.两个核心配置文件介绍.中文分词器配置.维护索引.查询索引,高亮显示.拼写检查.搜索建议.分组统计.自动聚类.相似匹配.拼音检索等功能的使用方法. 在代码文本框中如有显示不全的,请在文本框中按Ctrl+A再复制. 版本 作者/修改人 日期 V1.0 gzk 2013-06-04 1. So…
如何解决分布式系统数据事务一致性问题 (HBase加Solr) 摘要:对于所有的分布式系统,我想事务一致性问题是极其非常重要的问题,因为它直接影响到系统的可用性.本文以下所述所要解决的问题是:对于入HBase和Solr的过程,如何保证HBase中写入的数据与Solr中写入的数据完全一致. 关键词:HBase, Solr, 分布式, 事务, 系统架构, 大数据 作者:王安琪(博客:http://www.cnblogs.com/wgp13x/) 一.关于分布式系统事务一致性问题 Java 中有三种可…
在站内搜索Solr Schema设计时,有个FTS_URL字段(之前设计url也会参与检索和打分),因此其配置信息如下: <field name="FTS_URL" type="string" indexed="true" stored="true" omitNorms="false" /> 其中 : type表示类型以及分词类型. indexed表示是否支持索引. stored表示是否保存到索…
1.Solr简介 Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器.同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置.可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎. Solr最初由CNET Networks开发,2006 年初,Apache Software Foundation 在Lucene顶级项目的支持下得到了Solr.Solr于2007年1月酝酿成熟,在整个项目孵化期间,Solr稳步地积…
场景:小时候我们都使用过新华字典,妈妈叫你翻开第38页,找到“坑爹”所在的位置,此时你会怎么查呢?毫无疑问,你的眼睛会从38页的第一个字开始从头至尾地扫描,直到找到“坑爹”二字为止.这种搜索方法叫做顺序扫描法.对于少量的数据,使用顺序扫描是够用的.但是妈妈叫你查出坑爹的“坑”字在哪一页时,你要是从第一页的第一个字逐个的扫描下去,那你真的是被坑了.此时你就需要用到索引.索引记录了“坑”字在哪一页,你只需在索引中找到“坑”字,然后找到对应的页码,答案就出来了.因为在索引中查找“坑”字是非常快的,因为…
来源:http://blog.csdn.net/yangbutao/article/details/9450463 在电商平台中搜索是非常重要的功能,主要包括有搜索词类目导航.自动提示和搜索排序功能 自动提示如下图显示的,可以根据搜索词自动进行提示,并在列表中显示推荐的搜索词的document数量 类目导航如下图所示,比如在搜索框中搜索“牛奶”,则把相关的类目和当前类目对应的属性显示出来 下面就以上几种功能做示例讲解. 1.搜索排序 搜索功能中比较复杂的是文档的打分排序,solr中的打分规则继承…
转载地址:http://blog.sina.com.cn/s/blog_5ddc071f0101muos.html 在solr中有两种方式实现MoreLikeThis:MoreLikeThisHandler和在SearchHandler中的MoreLikeThisComponent. 两种方式大同小异: 一是:将MoreLikeThis作为一个单独的Handler来处理,体现主体地位. 二是:将MoreLikeThis作为一个组件放到SearchHandler中,为Search加入了MLT的功能…
转载:http://quweiprotoss.wap.blog.163.com/ Solr Cell是一个针对Tika的简单适配器,它由一个SAX ContentHandler组成,ContentHandler处理SAX事件,并通过指定要抽取的域产生文档. 在索引二制进文件的时候,有些事要注意: l  你可以提供任何Tika支持的文档类型给Tika,Tika会尝试确定文档正确的MIME类型,然后再调用相应的解析器.如果你已经知道了正确的MIME,你可以在stream.type参数中指定. l  …
http://docs.spring.io/spring-data/solr/ 首先介绍一下solr: Apache Solr (读音: SOLer) 是一个开源.高性能.采用Java开发.基于Lucene的全文搜索服务器,文档通过Http利用XML加到一个搜索集合中,查询该集合也是通过 http收到一个XML/JSON响应来实现.Solr 中存储的资源是以 Document 为对象进行存储的.每个文档由一系列的 Field 构成,每个 Field 表示资源的一个属性.Solr 中的每个 Doc…
http://blog.csdn.net/awj3584/article/details/16963525 Solr调研总结 开发类型 全文检索相关开发 Solr版本 4.2 文件内容 本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中可以应用的高亮显示.拼写检查.搜索建议.分组统计.拼音检索等功能的使用方法. 版本 作者/修改人 日期 V1.0 gzk 2013-06-04       1. Solr 是什么? So…
上一篇我们初识了Solr而且学习了Jetty的启动方式.查看了Solr的管理界面,这一篇我们来实如今Tomcat上部署执行Solr. 部署环境: window7 jdk1.6.0_14 Solr-4.7.2 tomcat-6.0.37 Solr的安装配置Solr home .主要介绍基于JNDI的配置.其他方式能够參考Solr的wiki. 基于JNDI配置 1:首先建立一个Solr的执行文件夹. C:\solr-tomcat 将解压缩包中的D:\work\work-tools\solr\solr…
Solr配置 Solr的主要功能是全文检索,该功能分为两个过程:创建索引和对索引进行搜索: 在创建索引之前,需要重点关注两个配置文件:SOLR_HOME/collection1/conf/schema.xml(定义Document的结构类似定义DB的表结构) & solrconfig.xml(solr运行配置如请求如何被处理):在Solr创建索引的过程中,每条数据被抽象成一个Document(文档),每条数据的属性被抽象成Field(字段),Solr原生支持XML,JSON,CSV格式的Docu…
http://www.cnblogs.com/guozk/p/3498831.html Solr调研总结 开发类型 全文检索相关开发 Solr版本 4.2 文件内容 本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试.两个核心配置文件介绍.中文分词器配置.维护索引.查询索引,高亮显示.拼写检查.搜索建议.分组统计.自动聚类.相似匹配.拼音检索等功能的使用方法. 在代码文本框中如有显示不全的,请在文本框中按Ctrl+A再复制. 版本 作者/修改人 日期 V1.0 gzk 2…