第一次尝试着去写一个系列的教程,希望自己能坚持下去,也希望自己能够通过博客的编写来加深自己对solr搜索的理解. Solr与Tomcat的整合网上有很多教程,我就以我的整合为例来讲述一下我的整合过程,我在整合的过程中用的是solr4.10 第一步:下载solr的源码包,下载地址:<a>http://mirrors.hust.edu.cn/apache/lucene/solr/</a>,在这可以选择你想要的版本 第二步:下载solr-4.10.4.zip,解压缩该文件. 第三步:so…
MRT(MODIS Reprojection Tool)简介: MODIS的全称为中分辨率成像光谱仪(Moderate-Resolution Imaging Spectroradiometer),是搭载在Terra和Aqua卫星上的一个重要的传感器.MRT是一种针对MODIS数据的处理工具.它可以帮助用户把MODIS影像重新投影到更为标准的地图投影,而且可以选择影像中的空间子集和波段子集进行投影转换,输出格式为raw binary,GeoTIFF和HDF-EOS.MRT可在多种系统平台上进行运行…
Solr5.5.5单机部署 Solr5和Solr4有很大区别,最为明显的就是Solr5已经可以独立部署,从Solr5开始,Solr已经不再以war包形式部署,Solr已经成为了一个独立的java服务端应用,已经包括了start和stop脚本,并支持Unix和Windows平台部署. Solr5.5.5独立部署,使用默认启动 下载各种版本的solr安装包地址:http://archive.apache.org/dist/lucene/solr/:这里以solr-5.5.5的版本为例: 1.下载so…
原文链接--http://www.importnew.com/12707.html 全文检索引擎Solr系列—–全文检索基本原理 2014/08/18 | 分类: 基础技术, 教程 | 2 条评论 | 标签: solr 分享到: 64 本文作者: ImportNew - 刘志军 未经许可,禁止转载! 场景:小时候我们都使用过新华字典,妈妈叫你翻开第38页,找到“坑爹”所在的位置,此时你会怎么查呢?毫无疑问,你的眼睛会从38页的第一个字开始从头至尾地扫描,直到找到“坑爹”二字为止.这种搜索方法叫做…
一.Schema介绍 1. Schema 是什么? Schema:模式,是集合/内核中字段的定义,让solr知道集合/内核包含哪些字段.字段的数据类型.字段该索引存储. 2. Schema 的定义方式 Solr中提供了两种方式来配置schema,两者只能选其一 2.1 默认方式,通过Schema API 来实时配置,模式信息存储在内核目录的conf/managed-schema文件中. 2.2 传统的手工编辑conf/schema.xml的方式,编辑完后需重载集合/内核才会生效. 3. sche…
一.solr两种部署模式介绍 Standalone Server 独立服务器模式:适用于数据规模不大的场景 SolrCloud  分布式集群模式:适用于数据规模大,高可靠.高可用.高并发的场景 二.独立服务器模式详解 1. 独立服务器模式架构 说明: 1.每个solr服务器实例(启动的一个solr服务器进程)都有一个solr主目录(系统变量名为:solr.solr.home).启动服务器实例时须为实例指定主目录(默认为:server/solr目录). 2.solr主目录中存放该服务器实例托管的内…
一.前言 前面已经学习了Lucene的分词.索引详解.搜索详解的知识,已经知道开发一个搜索引擎的流程了.现在就会有这样的一个问题:如果其他的系统也需要使用开发的搜索引擎怎么办呢?这个时候就需要把开发的搜索引擎封装成一个组件或者独立成一个单独的服务给其他系统使用了.目前市面上已经有基于Lucene的成熟的稳定的搜索引擎服务,例如Solr和ElasticSearch,如果没有特殊需求我们就可以直接拿过来使用,不需要自己再取开发一套了.下面我们就来介绍一下Solr. 二.Solr介绍 1. Solr是…
Document Document是Solr索引(动词,indexing)和搜索的最基本单元,它类似于关系数据库表中的一条记录,可以包含一个或多个字段(Field),每个字段包含一个name和文本值.字段在被索引的同时可以存储在索引中,搜索时就能返回该字段的值,通常文档都应该包含一个能唯一表示该文档的id字段.例如: 1 2 3 4 5 6 7 8 <doc>     <field name="id">company123</field>     &…
1: Solr简介 1.1 简介: 1.2 下载: 2:Solr 安装 2.1 安装 2.2 目录结构 3 :启动Solr 3.1 启动 3.2使用Solr提供的测试数据 3.5 Solr配置文集 3.4 Solr相关命令 1: Solr简介 1.1 简介: Solr是基于Apache Lucene ™构建的流行的,快速的开源企业搜索平台 特点: Solr具有高度的可靠性,可伸缩性和容错性,可提供分布式索引,复制和负载平衡查询,自动故障转移和恢复,集中式配置等.Solr为许多世界上最大的互联网站…
Solr是一个apache名下很好用的开源索引.搜索工具,网上的资料虽多但很杂,笔者花了一天的时间对Solr进行了较为初步的研究,对Solr的基础应用做了一定的总结.文中涉及到的配置方法并不唯一,API的用法也未必规范,仅希望能够通过此文让大家对solr更快的入手. 一.Solr的安装环境与配置: 1.  下载所需软件,安装配置Tomcat 首先下载Tomcat与Solr,Tomcat可在各软件网站下载得到,Solr下载地址如下: http://mirror.bjtu.edu.cn/apache…
客户端开发 Solrj 客户端开发 Solrj Solr是搭建好的lucene服务器 当然不可能完全满足一般的业务需求 可能 要针对各种的架构和业务调整 这里就需要用到Solrj了 Solrj是Solr提供的api库 可以进行Solr 的二次开发. 主要实现原理 服务端利用httpClient发送Solr格式的HTTP请求 到Solr服务器  然后服务器根据请求去找索引( 当然你要先针对数据源创建索引)最后返回SolrDocument. 然后你再进一步处理 高亮 排序 等功能.  1. 创建连接…
在学习solr过程中,磕磕碰碰,遇到过许多问题,所以特写下笔记,以供需要的时候时常翻阅,也给能看到该博文的博友提供一个不全面的参考. 一.solr简介: Solr是一个独立的企业及搜索应用服务器,它对外提供类似于Web-service的API接口.用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引:也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果.solr可以运行在Jetty.Tomcat等服务器上面. 二.solr下载: solr最新版的下载链接…
上一篇的配置说明主要是说明solrconfig.xml配置中的查询部分配置,在solr的功能中另外一个重要的功能是建索引,这是提供快速查询的核心. 按照Solr学习之一所述关于搜索引擎的原理中说明了建立索引,其实就需要经过分词组件处理,语言组件处理最后建立成一个倒排索引表, 通过这个索引表,来进行查询,本篇就是说明solr如何建立索引的也即是solrconfig.xml中关于更新索引的部分,另外由于建立索引需要涉及到 schemal.xml相关内容定义,这里面也一起说明. 一.设计schema…
接着前一篇,这里总结下Solr的安装与配置 1.准备 1.安装Java8 和 Tomcat9 ,java和tomcat 的安装这里不再重复.需要注意的是这两个的版本兼容问题.貌似java8 不支持,tomcat7 以下版本. 2.下载 solr安装包,目前的最新版本是  5.3.1 下载地址:http://www.apache.org/dyn/closer.lua/lucene/solr/5.3.1 2.安装 1.  将 solr 压缩包解压,并将solr-5.3.1\server\solr-w…
相关博文: 搜索引擎ElasticSearchV5.4.2系列一之ES介绍 搜索引擎ElasticSearchV5.4.2系列二之ElasticSearchV5.4.2+klanaV5.4.2+x-packV5.4.2安装 搜索引擎ElasticSearchV5.4.2系列三之ES使用 linux & windows 安装ES参考官网: https://elasticsearch.cn/book/elasticsearch_definitive_guide_2.x/index.html http…
1.在C:\Users\All Users\Microsoft\WLSetup\Logs下(All Users默认是隐藏文件夹),有两个Window Live的安装日记记录文件,打开第一个找到ERROR,发现是catalog-web.cab下载失败 2.找到window live的全安装包,下载(en,zh-cn是语言名称,如果要下载其它语言,请改名): 下载地址:http://g.live.com/1rewlive4-all/en/wlsetup-all.exe http://g.live.c…
一.Solr5.5.5.Tomcat8-x64.jdk-1.7-64单机部署 1.准备安装包,下载solr和tomcat的安装,直接解压即可(上篇一提供solr的下载路径) 2.在Solr5之前都还存在solr.war包,对于Solr5以后就不存在这个war包了,它已经解压到solr-5.5.5/server/solr-webapp 目录下了,那就将这个文件夹下面的webapp复制到tomcat8/webapps 下面,并将webapp改名为solr-5.5.5(名称可随意) 3.日志处理: 首…
 一:建立MySql测试表,如下图: 二:solr导入配置: 1.新建demo core文件夹,并修改managed-schema里面的配置文件建立索引字段: 2.把mysql-connector-java-5.1.30.jar拷贝到F:\solr_env\solr_home\demo\lib文件夹下 3.修改db-data-config.xml配置,文件路径:solr_home\demo\conf\db-data-config.xml 修改为: <dataConfig> <dataSo…
 一:Solr简介 Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口.用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引:也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果. Solr是一个高性能,采用Java5开发, Solr 基于Lucene的全文搜索服务器.同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置.可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一…
MySQL 拷贝mysql-connector-java-5.1.25-bin.jar到E:\solr-4.8.0\example\solr-webapp\webapp\WEB-INF\lib目录下面 配置E:\solr-4.8.0\example\solr\collection1\conf\solrconfig.xml 1 2 3 4 5 6 <requestHandler name="/dataimport"      class="org.apache.solr.…
场景:小时候我们都使用过新华字典,妈妈叫你翻开第38页,找到“坑爹”所在的位置,此时你会怎么查呢?毫无疑问,你的眼睛会从38页的第一个字开始从头至尾地扫描,直到找到“坑爹”二字为止.这种搜索方法叫做顺序扫描法.对于少量的数据,使用顺序扫描是够用的.但是妈妈叫你查出坑爹的“坑”字在哪一页时,你要是从第一页的第一个字逐个的扫描下去,那你真的是被坑了.此时你就需要用到索引.索引记录了“坑”字在哪一页,你只需在索引中找到“坑”字,然后找到对应的页码,答案就出来了.因为在索引中查找“坑”字是非常快的,因为…
mmseg4j是一个很好的中文分词器,solr与mmseg4j的整合也非常简单.如下: 第一步:下载mmseg4j的jar包,网上搜索一下有很多下载地址,如下是csdn上的一个连接:http://download.csdn.net/detail/nrs12345/6986585 第二步:将下载的mmseg4j-analysis-1.9.1.jar.mmseg4j-core-1.9.1.jar.mmseg4j-solr-2.2.0.jar这三个jar包复制到tomcat下的webapps/solr…
一.分面搜索 1. 什么是分面搜索? 分面搜索:在搜索结果的基础上进行按指定维度的统计,以展示搜索结果的另一面信息.类似于SQL语句的group by 分面搜索的示例: http://localhost:8983/solr/techproducts/browse 2. Solr中支持的分面查询 字段分面.区间分面.决策树分面.查询分面 2.1 字段分面 执行搜索时,根据查询请求返回特定分面字段中找到的唯一值以及找到的文档数. 通用查询参数: facet:true/false 对当前搜索是否启用分…
一.solr搜索流程介绍 1. 前面我们已经学习过Lucene搜索的流程,让我们再来回顾一下 流程说明: 首先获取用户输入的查询串,使用查询解析器QueryParser解析查询串生成查询对象Query,使用所有搜索器IndexSearcher执行查询对象Query得到TopDocs,遍历TopDocs得到文档Document 2. Solr搜索的工作流程: 流程说明: 用户输入查询字符串,根据用户的请求类型qt(查询为/select)选择请求处理器RequestHandler,根据用户输入的参数…
一.SolrJ介绍 1. SolrJ是什么? Solr提供的用于JAVA应用中访问solr服务API的客户端jar.在我们的应用中引入solrj: <dependency> <groupId>org.apache.solr</groupId> <artifactId>solr-solrj</artifactId> <version>7.3.0</version> </dependency> 2. SolrJ的核…
分词我理解的是,输入的一句话,按照它自己定义的规则分为常用词语. 首先,Solr有自己基本的类型,string.int.date.long等等.   对于string类型,比如在你的core/conf/manage-schema文件中,配置一个字段类型为string类型,如果查询符合“我是中国人”的数据,它就认为“我是中国人”是一个词语.   但是如果你将该字段设置成了分词,即配置成了text_ik类型,就可能匹配“我”.“中国人”.“中国”.“中”.“人”带有这些字的该字段数据都可能被查询到.…
默认Solr提供的分词组件对中文的支持是不友好的,比如:“VIM比作是编辑器之神”这个句子在索引的的时候,选择FieldType为”text_general”作为分词依据时,分词效果是: 它把每一个词都分开了,可以想象如果一篇文章这样分词的搜索的体验效果非常差.能够和Solr集成的中文分词组件有很多,比如:mmseg4j.IkAnalyzer.ICTCLAS等等.各有各的特点.这篇文章讲述如何整合Solr与mmseg4j.mmeseg4j最新版本是1.9.1,下载解压,提取其中的三个文件:mms…
IK Analyzer是一款结合了词典和文法分析算法的中文分词组件,基于字符串匹配,支持用户词典扩展定义,支持细粒度和智能切分,比如: 张三说的确实在理 智能分词的结果是: 张三 | 说的 | 确实 | 在理 最细粒度分词结果: 张三 | 三 | 说的 | 的确 | 的 | 确实 | 实在 | 在理 整合IK Analyzer比mmseg4j要简单很多,下载解压缩IKAnalyzer2012FF_u1.jar放到目录:E:\solr-4.8.0\example\solr-webapp\webap…
1: Solr导入 1.1导入POM # Base Code Java org.apache.solr solr-solrj 8.4.0 # spring boot org.springframework.boot spring-boot-starter-data-solr # Base Code Java <dependency> <groupId>org.apache.solr</groupId> <artifactId>solr-solrj</a…
下载4.8.0版本,下载地址:http://archive.apache.org/dist/lucene/solr/4.8.0/ 解压后,得到文件夹视图如下: 解压缩solr,在example目录有start.jar文件,启动: D:\soft\apache\solr\solr-4.8.0\example>java -jar start.jar 浏览器访问:http://localhost:8983/solr/,你看到的就是solr的管理界面 索引数据 服务启动后,目前你看到的界面没有任何数据,…