Solr与MongoDB集成，实时增量索引

一. 概述

　　大量的数据存储在MongoDB上，需要快速搜索出目标内容，于是搭建Solr服务。

　　另外一点，用Solr索引数据后，可以把数据用在不同的项目当中，直接向Solr服务发送请求，返回xml、json等形式的内容，使得对数据的使用更灵活。

　　对于MongoDB与Solr的描述不在这里阐释了，本文旨在给大家提供整个Solr与MongoDB接合的方法，实现实时的增量索引。

　　MongoDB的官网：http://www.mongodb.org/

　　Solr项目的主页：http://lucene.apache.org/solr/

二. 寻找解决方案

　　既然有了目标是讲Solr跟MongoDB接到一起，那么就开始想想解决的方案。

　　网上搜了一些资料之后，汇总了下面三个方案：

　　1. 使用Solr的DataImport功能（Data Import）

　　　　我们先来看看Solr Wiki上对于DataImport功能的描述http://wiki.apache.org/solr/DataImportHandler

　　　　Most applications store data in relational databases or XML files and searching over such data is a common use-case.The DataImportHandler is a Solr contrib that provides a configuration driven way to import this data into Solr in both "full builds" and using incremental delta imports.

　　　　对于存储在关系型数据库及XML上的数据，Solr提供了DataImportHandler去实现全量和增量索引。

　　　　啥？人家没说支持NoSQL啊，不信，我看清楚一点。

　　　　Wiki中的内容只给出了Usage with RDBMS 和 Usage with XML/HTTP Datasource，貌似Solr目前是不支持对于NoSQL的DataImport的。

　　　　有兴趣的朋友可以尝试给Solr添加一个Mongo的DataImportHandler，可能还要写底层的Mongo驱动，工程量可能很大。

　　　　关键是这个方案不可控，成本可能会很大，因此我就不采取这种方式了。

　　　　在这里给大家分享一篇文章，Solr与MySQL集成指南

　　　　确实DataImport这个功能还是比较强大的，而且对MySQL也支持得很好，本人尝试一下将Solr跟MySQL集成起来，配置过程也很简单。

　　　　不过MySQL不是本文的重点，跑题了，因此只是尝试了一下，没有深入。

　　2. 使用脚本语言读取MongoDB中的数据（Script Update）

　　　　说白了就是读取整个Collection中的数据，遍历。

　　　　这种方案是最直观的，但不优雅，复用性、可维护性低，

　　　　最严重的问题在于性能，当数量级在百万以下，那还是可以接受的，一旦数据继续增长，那性能问题就凸显出来了。

　　　　然而要是你还想用这种方案，那这里还有一个需要考虑的问题，你是打算每次遍历的时候对Solr进行全量还是增量索引呢？

　　　　全量的话就直接overwrite，事情也好办；增量的话，Mongo中删除了的数据你咋整呢？

　　　　总而言之，不推荐这种方案，它的复杂度问题很明显，无论是时间上还是空间上。

　　3. 使用MongoDB的oplog功能（Oplog Update）

　　　　MongoDB支持集群，集群中的实例进行通信，很自然地想到它们会记录log，在MongoDB中称之为oplog（operation log），类似与MySQL的binlog。

　　　　我们可以看看MongoDB官网上对oplog的描述 http://docs.mongodb.org/manual/reference/program/mongooplog/

　　　　如果现在你还想用上面方案2的话，那oplog的存在必然是对你的工作带来极大便利的。

　　　　其一，oplog是实时记录的，配合tailable cursor，可以实现实时的更新Solr索引，见http://derickrethans.nl/mongodb-and-solr.html

　　　　其二，实现优雅，增量的新增删除的判断时间复杂度变为O(1)

　　　　看到这里，你想用oplog来实现Solr与MongoDB的集成，那需要理清下面几个问题：

　　　　（1）mongooplog如何开启，怎么配置才适合

　　　　（2）Mongo Tailable Cursor是怎么一回事

　　　　（3）使用什么语言，选择合适的Solr Client

　　　　（4）服务器宕机恢复后的处理

三. 最终方案，mongo-connector

　　当我性高彩烈地动手实现方案3的时候，我看到了这个http://blog.mongodb.org/post/29127828146/introducing-mongo-connector

　　竟然找到了一个mongo-solr的connector，当时那个心情真叫欣喜若狂啊。

　　它完全就是方案3的实现啊！提到的问题它都解决了，而且使用Python正好适合这个项目，一切来得太突然。

　　Git地址：https://github.com/10gen-labs/mongo-connector

　　但是配置的过程都搞了我很久，后文将整个过程记录下来

四. 项目环境及工具版本

　　在本地测试，服务器：Windows7 32-bit

　　MongoDB：mongodb-win32-i386-2.4.5

　　Tomcat 6

　　Python：2.7.4

　　Solr：4.5.1

　　mongo-connector：没有提供版本号

　　Python pysolr模块

　　Python pymongo模块

　　Python lxml模块：lxml-3.2.3.win32-py2.7

　　可能还需要一些模块，但由于我在之前已经安装了，没有列举出来。如果运行的过程中报module not found，就去安装吧~

五. Solr端准备

　　这里默认你已经部署Solr成功，详细的部署过程自行Google。

　　这里主要是讲述与本次测试相关的配置。

　　使用的是solr example中的multicore例子，以其中的core0为例子

　　schema.xml文件如下：修改_id与Mongo对应，只留下一个name字段，为String类型

　　其它的配置不需要修改

　　把它放到Tomcat中运行吧，检查是否已经配置成功

六. MongoDB端准备

　　看到mongo-connector项目中的说明，

　　Since the connector does real time syncing, it is necessary to have MongoDB running, although the connector will work with both sharded and non sharded configurations. It requires a replica set setup.

　　就算我们开启了oplog也不行，还需要在Mongo中启动一个replica set

　　1. 配置replica set

　　　　（1）

　　　　我的MONGO_HOME为 D:\mongodb

　　　　目录树如下：

　　　　-rs　　(d)

　　　　|----db　　(d)　　mongo数据文件文件存放的目录

　　　　　　|----rs1　　(d)　　rs1实例数据文件存放的目录

　　　　　　|----rs2　　(d)　　rs2实例数据文件存放的目录

　　　　|----log　　(d)　　log文件存放的目录

　　　　　　|----rs1.log　　(f)　　rs1实例的log文件

　　　　　　|----rs2.log　　(f)　　rs2实例的log文件

　　　　|----mongod-rs1.bat　　rs1实例的启动脚本

　　　　|----mongod-rs2.bat　　rs2实例的启动脚本

　　　　mongod-rs1.bat内容如下：　　　　

　　　　D:\mongodb\bin\mongod --port 27001 --oplogSize 100 --dbpath db\rs1 --logpath log\rs1.log --replSet rs/127.0.0.1:27002 --journal
　　　　pause

　　　　mongod-rs2.bat内容如下：　　　

　　　　D:\mongodb\bin\mongod --port 27002 --oplogSize 100 --dbpath db\rs2 --logpath log\rs2.log --replSet rs/127.0.0.1:27001 --journal
　　　　pause

　　　　（2）执行两个脚本，启动两个mongod实例

　　　　（3）但这时它们还没组成一个replica set，还需要进行配置，开启mongo，连上localhost:27001，也就是实例rs1

　　　　至此，配置完成。

七. mongo-connector准备

　　如果是在mongo example中的multicore默认的配置上修改的话，访问http://localhost:8080/solr/core0/admin/luke?show=Schema&wt=json

　　应该是能看到JSON形式的core0的schema

　　打开mongo_connector/doc_managers/solr_doc_manager.py

　　进行如下修改：1.从util引入verify_url；2. ADMIN_URL修改为获取Solr核core0的JSON形式schema的URL的后半部分，因为要根据schema中的fields进行索引

　　在Solr多核的情况下启动mongo-connector，会报出Solr URL访问错误，它期望你传入http://localhost:8080/solr，

　　但http://localhost:8080/solr/core0才是实际起作用的，因此我们需要传入这个作为BASE_URL

　　解决办法如下：屏蔽掉url检查就行了

　　接下来就是启动mongo-connector了，启动命令如下：

　　C:\Users\gmuser\Desktop\mongo_connector>python mongo_connector.py -m localhost:27001 -t http://localhost:8080/solr/core0 -o oplog_progress.txt -n test.test -u _id -d ./doc_managers/solr_doc_manager.py

　　-m　　Mongod实例的访问路径

　　-t　　Solr的BASE_URL

　　-o　　记录oplog处理时间戳的文件

　　-n　　mongo命名空间，是监听哪个database哪个collection的设置，以逗号分隔多个命名空间，这里是监听test库中的test集合

　　-d　　就是处理doc的py文件

　　启动结果如下：说明你的配置已经成功了

八. 测试增量索引

　　先看看Solr中core0的状态：现在是没有记录的，Num Docs为0

　　往MongoDB中插入一条数据：需要包含name字段，还记得我们上面的schema.xml吗？

　　查看mongo-connector的输出：update了一条记录

　　看看Solr现在的状态：我们看到了刚才插入的

　　尝试删除掉刚才那条记录，connector输出如下：多了一条update的记录，这次是<delete>

　　再看看Solr的状态：刚才那条记录没了，删除成功！

九. 一些说明

　　mongo-connector会在oplog_progress.txt中记录时间戳，可以在服务器宕机恢复后索引Mongo oplog新增的数据，记录如下：

　　["Collection(Database(MongoClient([u'127.0.0.1:27001', u'127.0.0.1:27002']), u'local'), u'oplog.rs')", 5941530871067574273]

　　mongo-connector的代码并不复杂，想想上面上面方案3怎么实现，那它就是怎么做的了。

　　有些地方还是要根据我们项目进行一些修改的。

分类: MongoDB, Solr

Solr与MongoDB集成，实时增量索引的更多相关文章

[Solr] (源) Solr与MongoDB集成，实时增量索引
一. 概述大量的数据存储在MongoDB上,需要快速搜索出目标内容,于是搭建Solr服务. 另外一点,用Solr索引数据后,可以把数据用在不同的项目当中,直接向Solr服务发送请求,返回xml.js ...
sphinx通过增量索引实现近实时更新
一.sphinx增量索引实现近实时更新设置数据库中的已有数据很大,又不断有新数据加入到数据库中,也希望能够检索到.全部重新建立索引很消耗资源,因为我们需要更新的数据相比较而言很少. 例如.原来的数据 ...
Lucene.net 实现近实时搜索（NRT）和增量索引
Lucene做站内搜索的时候经常会遇到实时搜索的应用场景,比如用户搜索的功能.实现实时搜索,最普通的做法是,添加新的document之后,调用 IndexWriter 的 Commit 方法把内存中的 ...
sphinx 增量索引实现近实时更新
一.sphinx增量索引的设置数据库中的已有数据很大,又不断有新数据加入到数据库中,也希望能够检索到.全部重新建立索引很消耗资源,因为我们需要更新的数据相比较而言很少.例如.原来的数据有几百万条 ...
solr与.net系列课程(六)solr定时增量索引与安全
solr与.net系列课程(六)solr定时增量索引与安全 solr增量索引的方式,就是一个Http请求,但是这样的请求显然不能满足要求,我们需要的是一个自动的增量索引,solr官方提供了一个定时器 ...
sphinx续5-主索引增量索引和实时索引
原文件地址:http://blog.itpub.net/29806344/viewspace-1400942/ 在数据库数据非常庞大的时候,而且实时有新的数据插入,如果我们不更新索引,新的数据就sea ...
Coreseek:部门查询和增量索引代替实时索引
1.行业调查索引系统需要通过主查询来获取所有的文档信息,一个简单的实现是整个表的数据到内存,但是这可能会导致整个表被锁定,并且使其它操作被阻止(例如:在MyISAM格款式上INSERT操作).同时, ...
solr之定时增量索引实现
solr本身就提供了一个工具库实现定时增量索引,但是我在使用的过程中发现会出现一些问题,目前遇到两点: 1.启动时总是报如下异常: ? 1 The web application [solr] reg ...
sphinx增量索引和主索引来实现索引的实时更新
项目中文章的信息内容因为持续有新增,而文章总量的基数又比较大,所以做搜索的时候,用了主索引+增量索引这种方式来实现索引的实时更新. 实现原理: 1. 新建一张表,记录一下上一次已经创建好索引的最后一条 ...

随机推荐

KMP算法之从next[]到nextVal[]
前些日子写了一篇KMP算法的博文,浅谈数据结构之KMP(串中的模式匹配算法),在这片文章中,谈到了一个模式串K值的记录数组 next[],详细可看那篇文章,其实,前面定义的next[]数组是有一定缺陷 ...
【高德地图API】从零开始学高德JS API（二）地图控件与插件——测距、圆形编辑器、鼠标工具、地图类型切换、鹰眼鱼骨
原文:[高德地图API]从零开始学高德JS API(二)地图控件与插件——测距.圆形编辑器.鼠标工具.地图类型切换.鹰眼鱼骨摘要:无论是控件还是插件,都是在一级API接口的基础上,进行二次开发,封装 ...
C++中的class
C++中的class是C++不同于C的关键所在: 是面向对象中声明的类: 公有成员public member 在程序的不论什么地方都能够被訪问实行信息隐藏的类将其publ ...
vS2010 列表控件加入右键菜单
1.首先,就需要信息加入权限控制,例如,下面的对话框弹出 2,例如以下图选择须要的消息响应,这里选择NM_RCLICK 消息. 3,加入例如以下代码 </pre><pre name= ...
SSAS系列——【03】多维数据（多维数据集对象）
原文:SSAS系列--[03]多维数据(多维数据集对象) 1.什么是Cube? 简单 Cube 对象由基本信息.维度和度量值组组成. 基本信息包括多维数据集的名称.多维数据集的默认度量值.数据源和存储 ...
我的MYSQL学习心得（十一）
原文:我的MYSQL学习心得(十一) 我的MYSQL学习心得(十一) 我的MYSQL学习心得(一) 我的MYSQL学习心得(二) 我的MYSQL学习心得(三) 我的MYSQL学习心得(四) 我的MYS ...
$.each()遍历Json对象
1.遍历JavaScript数组对象: var json = [ //中括号起始 {"id":"1","tagName":"app ...
12个有趣的c面试题目
1.gets()函数问:请找出以下代码里的问题: #include<stdio.h> int main(void) { char buff[10]; memset ...
个人学习JQ插件编写成果：little酷炫的图片滑动切换效果
工作一个多月了,好久没来冒冒泡了,看了@wayong的JQ插件教程,自己编写了一个模仿拉勾网首页广告栏滑动特效的JQ插件,现在跟朋友们分享分享! 先上demo链接:http://runjs.cn/de ...
sb2-admin
近期开发中遇到的问题总结最近准备把后台管理系统重新设计开发下,使用了bootstrap,在网上找了个漂亮的后台模板:sb2-admin,在使用中遇到了不少问题,总结下,以免以后忘记. 1.EF5 ...

Solr与MongoDB集成，实时增量索引

Solr与MongoDB集成，实时增量索引

Solr与MongoDB集成，实时增量索引的更多相关文章

随机推荐

热门专题