[Solr] (源) Solr与MongoDB集成,实时增量索引
一. 概述
大量的数据存储在MongoDB上,需要快速搜索出目标内容,于是搭建Solr服务。
另外一点,用Solr索引数据后,可以把数据用在不同的项目当中,直接向Solr服务发送请求,返回xml、json等形式的内容,使得对数据的使用更灵活。
对于MongoDB与Solr的描述不在这里阐释了,本文旨在给大家提供整个Solr与MongoDB接合的方法,实现实时的增量索引。
MongoDB的官网:http://www.mongodb.org/
Solr项目的主页:http://lucene.apache.org/solr/
二. 寻找解决方案
既然有了目标是讲Solr跟MongoDB接到一起,那么就开始想想解决的方案。
网上搜了一些资料之后,汇总了下面三个方案:
1. 使用Solr的DataImport功能(Data Import)
我们先来看看Solr Wiki上对于DataImport功能的描述http://wiki.apache.org/solr/DataImportHandler
Most applications store data in relational databases or XML files and searching over such data is a common use-case.The DataImportHandler is a Solr contrib that provides a configuration driven way to import this data into Solr in both "full builds" and using incremental delta imports.
对于存储在关系型数据库及XML上的数据,Solr提供了DataImportHandler去实现全量和增量索引。
啥?人家没说支持NoSQL啊,不信,我看清楚一点。
Wiki中的内容只给出了Usage with RDBMS 和 Usage with XML/HTTP Datasource,貌似Solr目前是不支持对于NoSQL的DataImport的。
有兴趣的朋友可以尝试给Solr添加一个Mongo的DataImportHandler,可能还要写底层的Mongo驱动,工程量可能很大。
关键是这个方案不可控,成本可能会很大,因此我就不采取这种方式了。
在这里给大家分享一篇文章,Solr与MySQL集成指南
确实DataImport这个功能还是比较强大的,而且对MySQL也支持得很好,本人尝试一下将Solr跟MySQL集成起来,配置过程也很简单。
不过MySQL不是本文的重点,跑题了,因此只是尝试了一下,没有深入。
2. 使用脚本语言读取MongoDB中的数据(Script Update)
说白了就是读取整个Collection中的数据,遍历。
这种方案是最直观的,但不优雅,复用性、可维护性低,
最严重的问题在于性能,当数量级在百万以下,那还是可以接受的,一旦数据继续增长,那性能问题就凸显出来了。
然而要是你还想用这种方案,那这里还有一个需要考虑的问题,你是打算每次遍历的时候对Solr进行全量还是增量索引呢?
全量的话就直接overwrite,事情也好办;增量的话,Mongo中删除了的数据你咋整呢?
总而言之,不推荐这种方案,它的复杂度问题很明显,无论是时间上还是空间上。
3. 使用MongoDB的oplog功能(Oplog Update)
MongoDB支持集群,集群中的实例进行通信,很自然地想到它们会记录log,在MongoDB中称之为oplog(operation log),类似与MySQL的binlog。
我们可以看看MongoDB官网上对oplog的描述 http://docs.mongodb.org/manual/reference/program/mongooplog/
如果现在你还想用上面方案2的话,那oplog的存在必然是对你的工作带来极大便利的。
其一,oplog是实时记录的,配合tailable cursor,可以实现实时的更新Solr索引,见http://derickrethans.nl/mongodb-and-solr.html
其二,实现优雅,增量的新增删除的判断时间复杂度变为O(1)
看到这里,你想用oplog来实现Solr与MongoDB的集成,那需要理清下面几个问题:
(1)mongooplog如何开启,怎么配置才适合
(2)Mongo Tailable Cursor是怎么一回事
(3)使用什么语言,选择合适的Solr Client
(4)服务器宕机恢复后的处理
三. 最终方案,mongo-connector
当我性高彩烈地动手实现方案3的时候,我看到了这个http://blog.mongodb.org/post/29127828146/introducing-mongo-connector
竟然找到了一个mongo-solr的connector,当时那个心情真叫欣喜若狂啊。
它完全就是方案3的实现啊!提到的问题它都解决了,而且使用Python正好适合这个项目,一切来得太突然。
Git地址:https://github.com/10gen-labs/mongo-connector
但是配置的过程都搞了我很久,后文将整个过程记录下来
四. 项目环境及工具版本
在本地测试,服务器:Windows7 32-bit
MongoDB:mongodb-win32-i386-2.4.5
Tomcat 6
Python:2.7.4
Solr:4.5.1
mongo-connector:没有提供版本号
Python pysolr模块
Python pymongo模块
Python lxml模块:lxml-3.2.3.win32-py2.7
可能还需要一些模块,但由于我在之前已经安装了,没有列举出来。如果运行的过程中报module not found,就去安装吧~
五. Solr端准备
这里默认你已经部署Solr成功,详细的部署过程自行Google。
这里主要是讲述与本次测试相关的配置。
使用的是solr example中的multicore例子,以其中的core0为例子
schema.xml文件如下:修改_id与Mongo对应,只留下一个name字段,为String类型
其它的配置不需要修改
把它放到Tomcat中运行吧,检查是否已经配置成功
六. MongoDB端准备
看到mongo-connector项目中的说明,
Since the connector does real time syncing, it is necessary to have MongoDB running, although the connector will work with both sharded and non sharded configurations. It requires a replica set setup.
就算我们开启了oplog也不行,还需要在Mongo中启动一个replica set
1. 配置replica set
(1)
我的MONGO_HOME为 D:\mongodb
目录树如下:
-rs (d)
|----db (d) mongo数据文件文件存放的目录
|----rs1 (d) rs1实例数据文件存放的目录
|----rs2 (d) rs2实例数据文件存放的目录
|----log (d) log文件存放的目录
|----rs1.log (f) rs1实例的log文件
|----rs2.log (f) rs2实例的log文件
|----mongod-rs1.bat rs1实例的启动脚本
|----mongod-rs2.bat rs2实例的启动脚本
mongod-rs1.bat内容如下:
D:\mongodb\bin\mongod --port --oplogSize 100 --dbpath db\rs1 --logpath log\rs1.log --replSet rs/127.0.0.1:27002 --journal
pause
mongod-rs2.bat内容如下:
D:\mongodb\bin\mongod --port --oplogSize 100 --dbpath db\rs2 --logpath log\rs2.log --replSet rs/127.0.0.1:27001 --journal
pause
(2)执行两个脚本,启动两个mongod实例
(3)但这时它们还没组成一个replica set,还需要进行配置,开启mongo,连上localhost:27001,也就是实例rs1
至此,配置完成。
七. mongo-connector准备
如果是在mongo example中的multicore默认的配置上修改的话,访问http://localhost:8080/solr/core0/admin/luke?show=Schema&wt=json
应该是能看到JSON形式的core0的schema
打开mongo_connector/doc_managers/solr_doc_manager.py
进行如下修改:1.从util引入verify_url;2. ADMIN_URL修改为获取Solr核core0的JSON形式schema的URL的后半部分,因为要根据schema中的fields进行索引
在Solr多核的情况下启动mongo-connector,会报出Solr URL访问错误,它期望你传入http://localhost:8080/solr,
但http://localhost:8080/solr/core0才是实际起作用的,因此我们需要传入这个作为BASE_URL
解决办法如下:屏蔽掉url检查就行了
接下来就是启动mongo-connector了,启动命令如下:
-m Mongod实例的访问路径
-t Solr的BASE_URL
-o 记录oplog处理时间戳的文件
-n mongo命名空间,是监听哪个database哪个collection的设置,以逗号分隔多个命名空间,这里是监听test库中的test集合
-d 就是处理doc的py文件
启动结果如下:说明你的配置已经成功了
八. 测试增量索引
先看看Solr中core0的状态:现在是没有记录的,Num Docs为0
往MongoDB中插入一条数据:需要包含name字段,还记得我们上面的schema.xml吗?
查看mongo-connector的输出:update了一条记录
看看Solr现在的状态:我们看到了刚才插入的
尝试删除掉刚才那条记录,connector输出如下:多了一条update的记录,这次是<delete>
再看看Solr的状态:刚才那条记录没了,删除成功!
九. 一些说明
mongo-connector会在oplog_progress.txt中记录时间戳,可以在服务器宕机恢复后索引Mongo oplog新增的数据,记录如下:
["Collection(Database(MongoClient([u'127.0.0.1:27001', u'127.0.0.1:27002']), u'local'), u'oplog.rs')", 5941530871067574273]
mongo-connector的代码并不复杂,想想上面上面方案3怎么实现,那它就是怎么做的了。
有些地方还是要根据我们项目进行一些修改的。
[Solr] (源) Solr与MongoDB集成,实时增量索引的更多相关文章
- Solr与MongoDB集成,实时增量索引
Solr与MongoDB集成,实时增量索引 一. 概述 大量的数据存储在MongoDB上,需要快速搜索出目标内容,于是搭建Solr服务. 另外一点,用Solr索引数据后,可以把数据用在不同的项目当中, ...
- solr源码分析之数据导入DataImporter追溯。
若要搜索的信息都是被存储在数据库里面的,但是solr不能直接搜数据库,所以只有借助Solr组件将要搜索的信息在搜索服务器上进行索引,然后在客户端供客户使用. 1. SolrDispatchFilter ...
- solr之定时增量索引实现
solr本身就提供了一个工具库实现定时增量索引,但是我在使用的过程中发现会出现一些问题,目前遇到两点: 1.启动时总是报如下异常: ? 1 The web application [solr] reg ...
- solr源码分析之solrclound
一.简介 SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案.SolrCloud是Solr的基于Zookeeper一种部署方式.Solr可以以多种方式部署,例如 ...
- solr与.net系列课程(六)solr定时增量索引与安全
solr与.net系列课程(六)solr定时增量索引与安全 solr增量索引的方式,就是一个Http请求,但是这样的请求显然不能满足要求,我们需要的是一个自动的增量索引,solr官方提供了一个定时器 ...
- solr搜索引擎配置使用mongodb作为数据源
环境说明: 操作系统:由于是使用的docker直接拉取的镜像部署的,系统是LINUX环境 mongodb: 4.0.3 solr: 7.5.0 python: 3.5 配置mongodb 1.拉取mo ...
- solr源码分析之searchComponent
上文solr源码分析之数据导入DataImporter追溯中提到了solr的工作流程,其核心是各种handler. handler定义了各种search Component, @Override pu ...
- solr源码解读(转)
solr源码解读(转)原文地址:http://blog.csdn.net/duck_genuine/article/details/6962624 配置 solr 对一个搜索请求的的流程 在solrc ...
- ant编译solr源码生成eclipse项目,解决一直resolve,一直[ivy:retrieve]的问题
这两天在学习solr,结果刚到编译solr源码就卡住了,足足卡了两天,网上找各种解决办法都是简单带过,说是缺少jar包,下载下来放到对应位置就好了....对应位置???咋不说这个问题用相应方法解决即可 ...
随机推荐
- .NET 对接JAVA 使用Modulus,Exponent RSA 加密
最近有一个工作是需要把数据用RSA发送给Java 虽然一开始标准公钥 net和Java RSA填充的一些算法不一样 但是后来这个坑也补的差不多了 具体可以参考 http://www.cnblogs. ...
- OVS 中的各种网络设备 - 每天5分钟玩转 OpenStack(128)
上一节我们启用了 Open vSwitch,本节将查看当前的网络状态并介绍 Open vSwitch 涉及的各种网络设备 初始网络状态 查看一下当前的网络状态. 控制节点 ifconfig 显示控制节 ...
- CRL快速开发框架系列教程十三(嵌套查询)
本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框 ...
- zookeeper源码分析之五服务端(集群leader)处理请求流程
leader的实现类为LeaderZooKeeperServer,它间接继承自标准ZookeeperServer.它规定了请求到达leader时需要经历的路径: PrepRequestProcesso ...
- 【转】39个让你受益的HTML5教程
闲话少说,本文作者为大家收集了网上学习HTML5的资源,期望它们可以帮助大家更好地学习HTML5. 好人啊! 不过,作者原来说的40个只有39个,因为第5个和第8个是重复的. 原文在此! 1. 五分钟 ...
- 通过AngularJS实现前端与后台的数据对接(一)——预备工作篇
最近,笔者在做一个项目:使用AngularJS,从而实现前端与后台的数据对接.笔者这是第一次做前端与后台的数据对接的工作,因此遇到了许多问题.笔者在这些问题中,总结了一些如何实现前端与后台的数据对接的 ...
- 深入理解DOM节点操作
× 目录 [1]创建节点 [2]插入节点 [3]移除节点[4]替换节点[5]复制节点 前面的话 一般地,提起操作会想到“增删改查”这四个字,而DOM节点操作也类似地对应于此,接下来将详细介绍DOM的节 ...
- JavaScript 正则表达式语法
定义 JavaScript定义正则表达式有两种方法. 1.RegExp构造函数 var pattern = new RegExp("[bc]at","i"); ...
- Mysql - 性能优化之子查询
记得在做项目的时候, 听到过一句话, 尽量不要使用子查询, 那么这一篇就来看一下, 这句话是否是正确的. 那在这之前, 需要介绍一些概念性东西和mysql对语句的大致处理. 当Mysql Server ...
- ORACLE从共享池删除指定SQL的执行计划
Oracle 11g在DBMS_SHARED_POOL包中引入了一个名为PURGE的新存储过程,用于从对象库缓存中刷新特定对象,例如游标,包,序列,触发器等.也就是说可以删除.清理特定SQL的执行计划 ...