I've been building some custom search components for SOLR lately, so wanted to share a couple of things I learned in the process. Most likely this is old hat to people who have been doing this for a while, but thought I'd share, just in case it benef…
家裡或公司的舊電腦不夠力? 效能慢到想砸爛它們? 朋友或同事有電腦要丟嗎? 我有一個廢物利用的方法, 我收集了四台舊電腦, 組了一個Fully Distributed Mode的Hadoop Cluster, 在Hadoop上架了Hbase, 執行Nutch, 儲存Solr的資料在Hbase. PC Specs Name CPU RAM pigpigpig-client2 T2400 1.82GHz 2GB pigpigpig-client4 E7500 2.93GHz 4GB pigpigpi…
1.^ 控制符 (1)查询串上用^ 搜索: 天后王菲,如果希望将王菲的相关度加大,用^控制符. 天后  王菲^10.5  结果就会将含有王菲的document权重加大分数提高,排序靠前,10.5为权重. (2)feild上用^ name ^ 10 即name含有搜索串时候,权重比content含有搜索串的权重高,分数也就高. 2.*符号 当分词器中是最大切分时候,搜索小单元词汇"海波",如果分析器都分析为"黄海波",那么则用  *海波*  能搜索出结果!! 3.OR…
关于 Solr Cloud Zookeeper 入门,介绍 原理 原封不动转自 http://wiki.apache.org/solr/SolrCloud/ ,文章的内存有些过时,但是了解原理. This page is outdated and you should read about SolrCloud at the Solr Reference Guide instead: https://cwiki.apache.org/confluence/display/solr/SolrClou…
As you know, I've been playing with Solr lately, trying to see how feasible it would be to customize it for our needs. We have been a Lucene shop for a while, and we've built our own search framework around it, which has served us well so far. The ra…
原文地址:https://gist.github.com/maxivak/3e3ee1fca32f3949f052 Install Solr download and install Solr from http://lucene.apache.org/solr/. you can access Solr admin from your browser: http://localhost:8983/solr/ use the port number used in installation. M…
位于:${solr.home}\example\techproducts\solr\techproducts\conf\solrconfig.xml <?xml version="1.0" encoding="UTF-8" ?> <!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agreements. See the…
上一篇讲述了solr的安装启动过程,这一篇讲述如何导入数据到solr里. 一.准备数据 1.1 学生相关表 创建学生表.学生专业关联表.专业表.学生行业关联表.行业表.基础信息表,并创建一条小白的信息.由于navicat收费,所以这里利用HeidiSQL连接本地的MySql建立表. 1.2查询数据 查询出要导入solr的数据 二.添加jar包 2.1 添加mysql数据库驱动包 下载jar包,并放入到../solr-7.7.2/server/solr-webapp/webapp/WEB-INF/…
目录 1 luceneMatchVersion - 指定Lucene版本 2 lib - 配置扩展jar包 3 dataDir - 索引数据路径 4 directoryFactory - 索引存储工厂 5 codecFactory - 编解码方式 6 indexConfig - 索引配置 7 updateHandler - 更新处理器 7.1 updateLog - 索引库的事务日志 7.2 autoCommit - 自动(硬)提交策略 7.3 autoSoftCommit - 软提交策略 8…
1.下载Solr5.3.1 http://mirror.bit.edu.cn/apache/lucene/solr/5.3.1/ wget http://mirror.bit.edu.cn/apache/lucene/solr/5.3.0/solr-5.3.0.tgz 2.解压压缩包 tar zxf solr-.tgz 或 unzip solr-.zip 3.配置solr 1.复制solr项目文件 mkdir -p /data/web/solr/solr_app/cp -r /data/solr…
SolrDispatchFilter的作用 This filter looks at the incoming URL maps them to handlers defined in solrconfig.xml 将请求的url映射到solrconfig.xml定义的handler上. 该过滤器的doFilter方法主题: HttpSolrCall call = getHttpSolrCall((HttpServletRequest) request, (HttpServletResponse…
Sometime back, I described how I built (among other things) a custom Solr QParser plugin to handle Payload Term Queries. Looking back on this recently, I realized how lame it was - all it could handle were single Payload Term Queries, and a one level…
参考官网:https://lucene.apache.org/solr/guide/6_6/result-clustering.html 最近用到solr自聚类的,先简单介绍如下: 1.配置文件 主要配置文件必须配置如下内容: <lib dir="${solr.install.dir:../../..}/contrib/clustering/lib/" regex=".*\.jar" /> <lib dir="${solr.install…
Solr基本的三个XML配置文件: solr.xml: solr 日志.shard.solrcould等配置 solrconfig.xml: 某个solr core的配置 schema.xml:某个solr core的索引结构的配置,包含field 和field类型 这一章主要介绍solrconfig.xml, 某个solr core的配置. 1.Core的发现过程 扫描启动某个core的过程是这种:Solr webserver依据配置的java System Property(solr.sol…
经常有一种情景是这样的:我们索引了N年的文章,而查询时候无论直接用相关度.或者用时间排序,都是比较鲁莽的:我们想要一种既要相关度比较高,又要时间上比较新的文章. 这时候的解决办法就是,自定义日期衰减的ValueSourceQuery,然后在正常normalQuery的基础上后遭CustomScoreQuery即可. 下面给出2种在solr中使用日期衰减的方法 比如我们的索引中的时间字段是time,正常查询是title:哈哈 keyword:哈哈, 1.使用已有的各种functionQuery的组…
背景:基于call客,来电和跟进记录等多个数据来源的用户文档,需要在更新是判断首来源的时间. 如对电话号码11xxxx来说,来电时间是今天,call客时间是昨天,而call客数据又可能因为网络原因晚上传上来,这样一来11xxxx这个用户document的来源时间需要更新成昨天. 分析:solr的默认update没有办法匹配业务的灵活的更新逻辑.更新逻辑如下,当更新来源时间的时候,如果新的来源时间比之前的来源时间晚,则保持之前的来源时间. 代码实现: package custom.solr; im…
序言: 前面我们说了全局检索Lucene,但是我们发现Lucene在使用上还是有些不方便的,例如想要看索引的内容时,就必须自己调api去查,再例如一些添加文档,需要写的代码还是比较多的 另外我们之前说过Lucene只是一个全文检索的工具包,并不算一个完整的搜索引擎.很多功能还是需要我们自己去完善,去实现的. solr 和 ElasticSearch 是基于Lucene开发的功能比较完备的全文检索引擎. Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器.同时对其进行了扩展,…
HTML Custom Elements (v1) https://developers.google.com/web/fundamentals/web-components/customelements Web Components https://developer.mozilla.org/en-US/docs/Web/Web_Components/Using_custom_elements https://caniuse.com/#search=HTML Custom Elements W…
Solr实现Low Level查询解析(QParser) Solr基于Lucene提供了方便的查询解析和搜索服务器的功能,可以以插件的方式集成,非常容易的扩展我们自己需要的查询解析方式.其中,Solr内置了一些QParser,对一些没有特殊要求的应用来说,可以直接使用这些查询解析组件,而无需做任何修改,只需要了解这些查询解析组件提供的基本参数(Local Params),就可以实现强大的搜索功能. 对于Solr来说,它的设计目标就是尽可能屏蔽底层Lucene的复杂度和难点,而是通过提供可配置的方…
场景描述:前段时间,将实时数据通过kafka+flume+morphline的方式接入到solr中.新进来的数据已经可以在solr中看到了,但是以前的历史数据还没有导入solr. CDH提供利用MapReduceIndexerTool来将HDFS的数据导入到solr. 历史数据格式类似如下按年/月/日保存在HDFS上每天一个文件: -/user/data/2016 -11 -1 -data.txt -2 -data.txt -12 -1 -data.txt -2 -data.txt 文件的格式为…
本文要描述的是solr的查询插件,该查询插件目的用于生成Lucene的查询Query,类似于查询条件表达式,与solr查询插件相关UML类图如下: 如果我们强行将上面的类图纳入某种设计模式语言的话,本人姑且将之归入桥接模式(Bridge)吧:QParserPlugin插件的行为依赖于QParser的具体类型 QParserPlugin为抽象类,职责为创建QParser类型对象 package org.apache.solr.search; import org.apache.solr.commo…
本文转自:http://blog.csdn.net/lianghyan/article/details/49467207 solr下载: http://lucene.apache.org/solr/downloads.html ( http://www.apache.org/dyn/closer.lua/lucene/solr/5.3.1) 1. 解压缩 solr-5.3.1.zip, 到D:\dev\solr-5.3.1 2. copy  D:\dev\solr-5.3.1\server\so…
转载:http://www.cnblogs.com/hoojo/archive/2011/10/21/2220431.html Solr 是一种可供企业使用的.基于 Lucene 的搜索服务器,它支持层面搜索.命中醒目显示和多种输出格式.在这篇文章中,将介绍 Solr 并展示如何轻松地将其表现优异的全文本搜索功能加入到 Web 应用程序中. 开发环境: System:Windows WebBrowser:IE6+.Firefox3+ JDK:1.6+ JavaEE Server:tomcat5.…
Solr Schema.xml和solrconfig.xml分析 (http://yinwufeng.iteye.com/blog/964040) 一.字段配置(schema) schema.xml位于solr/conf/目录下,类似于数据表配置文件, 定义了加入索引的数据的数据类型,主要包括type.fields和其他的一些缺省设置. 1.先来看下type节点,这里面定义FieldType子节点,包括name,class,positionIncrementGap等一些参数. name:就是这个…
Solr 是一种可供企业使用的.基于 Lucene 的搜索服务器,它支持层面搜索.命中醒目显示和多种输出格式.在这篇分两部分的文章中,Lucene Java™ 的提交人 Grant Ingersoll 将介绍 Solr 并向您展示如何轻松地将其表现优异的全文本搜索功能加入到 Web 应用程序中. 一旦用户需要某种信息,就可以立即搜索到这些信息,这种要求再也不是可有可无的了.随着 Google 和类似的复杂搜索引擎的出现,用户希望得到高质量的搜索结果,帮助他们快速.轻易地找到所需的信息.经理对您的…
转自 http://topcat.iteye.com/blog/1293650 问题 lucene使用排序时会将被排序字段全部加入内存再进行排序,当多次使用不同字段进行排序时会造成OOM问题 解决方案 修改lucene源码在每次查询完成后将排序所使用的FieldCache里的缓存清空 分别需要修改两个工程 lucene2.4 solr1.3 Lucene2.4中要修改的类或接口有 org.apache.lucene.index.IndexReader 添加成员变量 public String m…
简介: solr是基于Lucene Java搜索库的企业级全文搜索引擎,目前是apache的一个项目.它的官方网址在http://lucene.apache.org/solr/  .solr需要运行在一个servlet 容器里,例如tomcat.solr在lucene的上层提供了一个基于HTTP/XML的Web Services,我们的应用需要通过这个服务与solr进行交互. 前提,下载tomcat.省略. 第一步:下载Solr, http://www.apache.org/dyn/closer…
Solr配置与简单Demo 简介: solr是基于Lucene Java搜索库的企业级全文搜索引擎,目前是apache的一个项目.它的官方网址在http://lucene.apache.org/solr/  .solr需要运行在一个servlet 容器里,例如tomcat.solr在lucene的上层提供了一个基于HTTP/XML的Web Services,我们的应用需要通过这个服务与solr进行交互. 前提,下载tomcat.省略. 第一步:下载Solr, http://www.apache.…
Solr开发文档 Solr 是一种可供企业使用的.基于 Lucene 的搜索服务器,它支持层面搜索.命中醒目显示和多种输出格式.在这篇文章中,将介绍 Solr 并展示如何轻松地将其表现优异的全文本搜索功能加入到 Web 应用程序中. 开发环境: System:Windows WebBrowser:IE6+.Firefox3+ JDK:1.6+ JavaEE Server:tomcat5.0.2.8.tomcat6 IDE:eclipse.MyEclipse 8 开发依赖库: JavaEE 5.s…
Solr采用Lucene搜索库为核心,提供全文索引和搜索开源企业平台,提供REST的HTTP/XML和JSON的API,如果你是Solr新手,那么就和我一起来入门吧!本教程以solr4.8作为测试环境,jdk版本需要1.7及以上版本. 准备 本文假设你对Java有初中级以上水平,因此不再介绍Java相关环境的配置.下载解压缩solr,在example目录有start.jar文件,启动: 1 java -jar start.jar 浏览器访问:http://localhost:8983/solr/…