sphinx 增量索引及时更新、sphinx indexer索引合成时去旧和过滤办法(转)

一.sphinx增量索引的设置数据库中的已有数据很大，又不断有新数据加入到数据库中，也希望能够检索到。全部重新建立索引很消耗资源，因为我们需要更新的数据相比较而言很少。例如。原来的数据有几百万条，而新增的只是几千条。这样就可以使用“主索引+增量索引”的模式来实现近乎实时更新的功能。

这个模式实现的基本原理是设置两个数据源和两个索引，为那些基本不更新的数据建立主索引，而对于那些新增的数据建立增量索引。主索引的更新频率可以设置的长一些(例如设置在每天的午夜进行)，而增量索引的更新频率，我们可以将时间设置的很短(几分钟左右)，这样在用户搜索的时候，我们可以同时查询这两个索引的数据。

使用“主索引+增量索引”方法有个简单的实现，在数据库中增加一个计数表，记录每次重新构建主索引时，被索引表的最后一个数据id，这样在增量索引时只需要索引这个id以后的数据即可，每次重新构建主索引时都更新这个表。

测试条件：以默认的sphinx.conf配置为例，数据库表的数据也以 example.sql为例。

1.先在mysql中插入一个计数表和两个索引表

CREATETABLEsph_counter( counter_id INTEGERPRIMARYKEYNOTNULL, max_doc_id INTEGERNOTNULL);

2.修改sphinx.conf

source main_src{ type = mysql sql_host = localhost sql_user = yourusername sql_pass = yourpassword sql_db = test //你所用的数据库 sql_port = 3306 //所用端口，默认是3306

sql_query_pre = SET NAMES utf8

sql_query_pre = SET SESSION query_cache_type=OFF #下面的语句是更新sph_counter表中的 max_doc_id。

sql_query_pre = REPLACE INTO sph_counter SELECT 1, MAX(id) FROM documents

sql_query = SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title,\ content FROM documents \ WHERE id<=( SELECT max_doc_id FROM sph_counter WHERE counter_id=1 ) }

// 注意：delta_src 中的sql_query_pre的个数需和main_src 对应，否则可能搜索不出相应结果

source delta_src: main_src{ sql_ranged_throttle = 100 sql_query_pre = SET NAMES utf8 sql_query_pre = SET SESSION query_cache_type=OFF sql_query = SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content FROM documents \ WHERE id>( SELECT max_doc_id FROM sph_counter WHERE counter_id=1 )} index main //主索引{ source = main_src path = /path/to/main # example: /usr/local/sphinx/var/data/main ............. charset_type = utf-8 #这个是支持中文必须要设置的 chinese_dictionary =/usr/local/sphinx/etc/xdict #..........其它可以默认}

//delta可全部复制主索引，然后更改source 和path如下

index delta: main //增量索引{ source = delta_src path = /path/to/delta # example: /usr/local/sphinx/var/data/delta… }

其它的配置可都用默认的，如果你设置了分布式检索的索引，那么更改下对应的索引名称即可。
3.重新建立索引： 如果sphinx正在运行，那么首先停止运行，然后，根据sphinx.conf配置文件来建立所有索引，最后，启动服务

/usr/local/sphinx/bin/searchd --stop/usr/local/sphinx/bin/indexer -c /usr/local/sphinx/etc/sphinx.conf --all/usr/local/sphinx/bin/searchd -c /usr/local/sphinx/etc/sphinx.conf

P.S /usr/local/sphinx/bin/indexer -c /usr/local/sphinx/etc/sphinx.conf --all--rotate 这样就不需要停searchd，索引后也不再需要重启searchd了。

如果想测试增量索引是否成功，往数据库表中插入数据，查找是否能够检索到，这个时候检索应该为空，然后，单独重建 delta索引 /usr/local/sphinx/bin/indexer -c /usr/lcoal/sphinx/etc/sphinx.conf delta 查看是否将新的记录进行了索引。如果成功，此时，再用 /usr/local/sphing/bin/search 工具来检索，能够看到，在main索引中检索到的结果为0，而在delta中检索到结果。当然，前提条件是，检索的词，只在后来插入的数据中存在。
接下来的问题是如何让增量索引与主索引合并
4.索引合并 合并两个已有索引有时比重新索引所有数据有效，虽然，索引合并时，待合并的两个索引都会被读入内存一次，合并后的内容需写入磁盘一次，即，合并100GB和1GB的两个所以，将导致202GB的IO操作命令原型： indexer --merge DSTINDEX SRCINDEX [--rotate] 将SRCINDEX合并到 DSTINDEX ,所以只有DSTINDEX会改变，如果两个索引都正在提供服务，那么 -- rotate 参数是必须的。例如：将delta合并到main中。 indexer --merge main delta
5.索引自动更新 需要使用到脚本。建立两个脚本:build_main_index.sh 和 build_delta_index.sh.
build_main_index.sh： #!/bin/sh # 停止正在运行的searchd /usr/local/sphinx/bin/searchd -c /usr/local/sphinx/etc/mersphinx.conf --stop >> /usr/local/sphinx/var/log/sphinx/searchd.log #建立主索引 /usr/local/sphinx/bin/indexer -c /usr/local/sphinx/etc/mersphinx.conf main >> /usr/local/sphinx/var/log/sphinx/mainindex.log #启动searchd守护程序 /usr/local/sphinx/bin/searchd >> /usr/local/sphinx/var/log/sphinx/searchd.log
build_delta_index.sh

#!/bin/sh #停止sphinx服务，将输出重定向 /usr/local/sphinx/bin/searchd –stop>>/usr/local/sphinx/var/log/sphinx/searchd.log #重新建立索引delta ,将输出重定向 /usr/local/sphinx/bin/indexerdelta –c/usr/local/sphinx/etc/sphinx.conf>>/usr/lcoal/sphinx/var/log/sphinx/deltaindex.log #将delta合并到main中 /usr/local/sphinx/bin/indexer –merge main delta –c /usr/local/sphinx/etc/sphinx.conf >> /usr/lcoal/sphinx/var/log/sphinx/deltaindex.log #启动服务 /usr/local/sphinx/bin/searchd>>/usr/local/sphinx/var/log/sphinx/searchd.log

脚本写好后，需要编译 chmod +x filename 这样才能运行。即 chmod +x build_main_index.sh chmod +x build_delta_index.sh
最后，我们需要脚本能够自动运行，以实现，delta索引每5分钟重新建立，和main索引只在午夜2：30时重新建立。
使用crontab 命令这有俩个地方可作参考 crontab crontab文件 crontab -e 来编辑 crontab文件，如果之前没有使用，会是一个空的文件。写下下面两条语句 */30 * * * * /bin/sh /usr/local/sphinx/etc/build_delta_index.sh > /dev/null 2>&1 30 2 * * * /bin/sh /usr/local/sphinx/etc/build_main_index.sh > /dev/null 2>&1
第一条是表示每30分钟运行 /usr/local/sphinx/etc/下的build_delta_index.sh 脚本，输出重定向。第二条是表示每天的凌晨2：30分运行 /usr/local/sphinx/etc下的build_main_inde.sh 脚本，输出重定向。关于前面的 5个值的设置，在上面的crontab文件中有详细的描述。关于重定向的解释，请看最上面的Crontab笔记，也有crontab的介绍。
保存好后：重新启动服务

[root@test1 init.d]# service crond stop [root@test1 init.d]# service crond start 或者 /etc/init.d/crontab start
到现在为止，如果脚本写的没有问题，那么build_delta_index.sh将每30分钟运行一次，而build_main_index.sh将在凌晨2:30分才运行。
要验证的话，在脚本中，有将输出重定向到相关的文件，可以查看下文件中的记录是否增多，也可以看下 /usr/local/sphinx/var/log下的 searchd.log 中，每次重建索引都会有记录。
总结 1.索引合并问题，前面已经解释过，两个索引合并时，都要读入，然后还要写一次硬盘，IO操作量很大。而在php API调用时，Query($query,$index)中$index可以设置多个索引名，如Query($query,"main;delta"),也就没有必要一定将两个索引合并，或者，合并的次数不用那么多。 2.还有一个是没有尝试过的，把增量索引存放到共享内存中（/dev/shm）以提高索引性能，减少系统负荷。

关于PHP API 如何能够顺利通过PHP页面来进行检索。首先，在服务器上searchd 必须是运行的。然后，根据test.php来修改下。运行，连接时会出现一个很大的问题 errno =13 permission deny. 最后，查到一个英文的网页，是因为SElinux的原因，关于SELinux在网上能搜到。没有很好的解决办法，只能把SELinux设置为不用。使用的命令有下面两个： setenforce 在 /usr/bin 下 setenforce 1 设置SELinux 成为enforcing模式 setenforce 0 设置SELinux 成为permissive模式

过滤：

合并两个已有的索引比重新对所有数据做索引更有效率，而且有时候必须这样做（例如在“ 主索引＋增量索引”分区模式中应合并主索引和增量索引，而不是简单地重新索引“主索引对应的数据）。因此indexer有这个选项。合并索引一般比重新索引快，但在大型索引上仍然不是一蹴而就。基本上，待合并的两个索引都会被读入内存一次，而合并后的内容需要写入磁盘一次。例如，合并100GB和1GB的两个索引将导致202GB的IO操作（但很可能还是比重新索引少）基本的命令语法如下： indexer --merge DSTINDEX SRCINDEX[--rotate]

SRCINDEX的内容被合并到DSTINDEX中，因此只有DSTINDEX索引会被改变。若 DSTINDEX已经被searchd用于提供服务，则--rotate参数是必须的。最初设计的使用模式是，将小量的更新从SRCINDEX合并到DSTINDEX中。因此，当属性被合并时，一旦出现了重复的文档ID，SRCINDEX中的属性值更优先（会覆盖DSTINDEX中的值）。不过要注意， “旧的”关键字并不会被自动删除。例如，在DSTINDEX中有一个叫做“old”的关键字与文档123相关联，而在SRCINDEX中则有关键字“new”与同一个文档相关，那么在合并后用这两个关键字都能找到文档123。您可以给出一个显式条件来将文档从DSTINDEX中移除，以便应对这种情况，相关的开关是--merge-dst-range: indexer --merge main delta--merge-dst-range deleted 00 这个开关允许您在合并过程中对目标索引实施过滤。过滤器可以有多个，只有满足全部过滤条件的文档才会在最终合并后的索引中出现。在上述例子中，过滤器只允许“deleted”为0 的那些条件通过，而去除所有标记为已删除（“deleted”）的记录（可以通过调用 UpdateAttributes() 设置文档的属性）。

去旧（强行更新）：

情景描述：假设有一旧关键字“去钓鱼”，与论坛贴子“周末的活动”相关联，用“去钓鱼”可以搜索到这篇帖子。之后楼主把贴子关键字部分改成了“去河边钓鱼”。如果用sphinx的indexer生成增量索引bbsattend,然后用indexer--merge bbs bbsattend--rotate合成到主索引bbs后。用“去河边钓鱼”搜不到结果，用“去钓鱼”可以搜到“去河边钓鱼”的结果。

解决办法：加--merge-killists option(选项)

indexer --merge bbs bbsattend--rotate --merge-killists

sphinx 增量索引及时更新、sphinx indexer索引合成时去旧和过滤办法(转)的更多相关文章

sphinx 增量索引实现近实时更新
一.sphinx增量索引的设置数据库中的已有数据很大,又不断有新数据加入到数据库中,也希望能够检索到.全部重新建立索引很消耗资源,因为我们需要更新的数据相比较而言很少.例如.原来的数据有几百万条 ...
sphinx增量索引
首先建立一个计数表,保存数据表的最新记录ID CREATE TABLE `sph_counter` ( `id` int(11) unsigned NOT NULL, `max_id` int(1 ...
Sphinx 增量索引更新
是基于PHP API调用,而不是基于sphinxSE.现在看来sphinxSE比API调用更简单的多,因为之前没有想过sphinxSE,现在先把API的弄明白.涉及到的:sphinx 数据源的设置,简 ...
sphinx增量索引和主索引来实现索引的实时更新
项目中文章的信息内容因为持续有新增,而文章总量的基数又比较大,所以做搜索的时候,用了主索引+增量索引这种方式来实现索引的实时更新. 实现原理: 1. 新建一张表,记录一下上一次已经创建好索引的最后一条 ...
sphinx增量索引使用
sphinx在使用过程中如果表的数据量很大,新增加的内容在sphinx索引没有重建之前都是搜索不到的. 这时可以通过建立sphinx增量索引,通过定时更新增量索引,合并主索引的方式,来实现伪实时更新. ...
【Unity|C#】基础篇(7)——属性（Property）/ 索引器（Indexer）
[学习资料] <C#图解教程>(第6章):https://www.cnblogs.com/moonache/p/7687551.html 电子书下载:https://pan.baidu.c ...
2.使用Lucene开发自己的搜索引擎–indexer索引程序中基本类介绍
(1)Directory:Directory类描述了Lucene索引的存放位置,它是一个抽象,其子类负责具体制定索引的存储路径.FSDirectory.open方法来获取真实文件在文件系统中的存储路径 ...
[译]《Sphinx权威指南》 - Sphinx入门
本章中,我们会讨论到Sphinx基础的安装.配置和维护.不要被“基础”这形容词糊弄而跳过这个章节.对于“基础”,我不是指简单到显而易见的东西,而是指所有人都会用到的功能. 一般来说,Sphinx会使用 ...
认识SQLServer索引以及单列索引和多列索引的不同
一.索引的概念索引的用途:我们对数据查询及处理速度已成为衡量应用系统成败的标准,而采用索引来加快数据处理速度通常是最普遍采用的优化方法. 索引是什么:数据库中的索引类似于一本书的目录,在一本书中使 ...

随机推荐

C#中哈希表与List的比较
简单概念在c#中,List是顺序线性表(非链表),用一组地址连续的存储单元依次存储数据元素的线性结构. 哈希表也叫散列表,是一种通过把关键码值映射到表中一个位置来访问记录的数据结构.c#中的哈希表有 ...
file的getPath getAbsolutePath和getCanonicalPath的区别
转自:http://www.blogjava.net/dreamstone/archive/2007/08/08/134968.html file的这几个取得path的方法各有不同,下边说说详细的区别 ...
根据IP地址查询所在地
using System; using System.Collections.Generic; using System.Text; using System.IO; using System.Tex ...
UVA 10510 Cactus
题意:给出一个有向图,问是不是仙人掌图.仙人掌图:每个边只在一个普通环内的强连通图. 解法:tarjan判断强连通分量是否为1个,记录找环的路径,在每找到一个环时遍历路径记录点出现的次数,如果出现有点 ...
430flash的操作
大概印象:430的flash好像有点像arm的flash,只不过是arm的flash要比430的大很多,而且430的flash不同于E2PROOM,这一点需要值得注意 MSP430flash的基本特点 ...
HDU4614 Vases and Flowers
http://acm.hdu.edu.cn/showproblem.php?pid=4614 HDU 4614 Vases and Flowers (2013多校第二场线段树) // #pragma ...
Tasks on 2013
1.改进并补充实验 2.样本选取和文档分布调查 3. Diversity Metrics 4. PPT for Project starting 1. Chrome & webkit 2. O ...
手机模拟器上安装与卸载apk
一.安装apk 将apk放到sdk安装目录下的platform-tools(不同版本的sdk也可能是tools) 1.adb kill-server2.adb start-server3.adb re ...
【Hadoop代码笔记】目录
整理09年时候做的Hadoop的代码笔记. 开始. [Hadoop代码笔记]Hadoop作业提交之客户端作业提交 [Hadoop代码笔记]通过JobClient对Jobtracker的调用看详细了解H ...
可以使用Markdown了？
园子果然领先 1.标题类一级标题二级标题三级标题四级六级怎么可以用#号?上传上去看看 2.换行第一行换一行在换一行 3.多个下划线 the_odd_egg odd 斜体用星号 4.删 ...

sphinx 增量索引 及时更新、sphinx indexer索引合成时去旧和过滤办法(转)

sphinx 增量索引 及时更新、sphinx indexer索引合成时去旧和过滤办法(转)的更多相关文章

随机推荐

热门专题

sphinx 增量索引及时更新、sphinx indexer索引合成时去旧和过滤办法(转)

sphinx 增量索引及时更新、sphinx indexer索引合成时去旧和过滤办法(转)的更多相关文章