Coreseek:部门查询和增量索引代替实时索引

1.行业调查

索引系统需要通过主查询来获取所有的文档信息，一个简单的实现是整个表的数据到内存，但是这可能会导致整个表被锁定，并且使其它操作被阻止（例如：在MyISAM格款式上INSERT操作）。同时，会浪费大量的内存来存储查询结果。喜欢它的问题。为了避免出现这样的情况。CoreSeek/Sphinx支持一种被称为区段查询的技术. 首先，CoreSeek/Sphinx从数据库中取出文档ID的最小值和最大值。将由最大值和最小值定义自然数区间分成若干份，一次获取数据。建立索引。现举比例如以下：

sql_query_range	= SELECT MIN(id),MAX(id) FROM documents

sql_range_step = 1000

sql_query = SELECT * FROM documents WHERE id>=$start AND id<=$end

仅仅要在配置文件中面写三条语句就可以

from后面要跟的是你数据库里面的表名，如这里的表就是document

2.增量索引取代实时索引

有这么一种常见的情况：整个数据集很大，以至于难于常常性的重建索引，可是每次新增的记录却相当地少。一个典型的样例是：一个论坛有1000000个已经归档的帖子，但每天仅仅有1000个新帖子。

在这样的情况下能够用所谓的“主索引＋增量索引”（main+delta）模式来实现“近实时”的索引更新。

这样的方法的基本思路是设置两个数据源和两个索引，对非常少更新或根本不更新的数据建立主索引。而对新增文档建立增量索引。在上述样例中，那1000000个已经归档的帖子放在主索引中，而每天新增的1000个帖子则放在增量索引中。增量索引更新的频率能够非常快，而文档能够在出现几分种内就能够被检索到。

确定详细某一文档的分属那个索引的分类工作能够自己主动完毕。

一个可选的方案是，建立一个计数表，记录将文档集分成两部分的那个文档ID，而每次又一次构建主索引时，这个表都会被更新。

分辨要在mysql里建表，然后改动配置文件

# in MySQL

CREATE TABLE sph_counter

(

    counter_id INTEGER PRIMARY KEY NOT NULL,

    max_doc_id INTEGER NOT NULL

);

# in sphinx.conf

source main

{

    # ...

    sql_query_pre = SET NAMES utf8

    sql_query_pre = REPLACE INTO sph_counter SELECT 1, MAX(id) FROM documents

    sql_query = SELECT id, title, body FROM documents \

        WHERE id<span style="color:#ff0000;"><=</span>( SELECT max_doc_id FROM sph_counter WHERE counter_id=1 )

}

source delta : main

{

    sql_query_pre = SET NAMES utf8

    sql_query = SELECT id, title, body FROM documents \

        WHERE id<span style="color:#ff0000;">></span>( SELECT max_doc_id FROM sph_counter WHERE counter_id=1 )

}

index main

{

    source = main

    path = /path/to/main

    # ... all the other settings

}

# note how all other settings are copied from main,

# but source and path are overridden (they MUST be)

index delta : main

{

    source = delta

    path = /path/to/delta

}

写好之后，还要写两个批处理文件，一个做增量索引。一个合并索引。

增量索引：g:/service/coreseek/bin/indexer -c g:/service/coreseek/etc/csft_mysql.conf --rotate main_delta

合并索引：g:/service/coreseek/bin/indexer -c g:/service/coreseek/etc/csft_mysql.conf --merge main main_delta --rotate

写完后。既然后把该任务计划，几乎是同一5几分钟做一个增量索引，每天1有一半的时间做一个主索引

Coreseek:部门查询和增量索引代替实时索引的更多相关文章

Coreseek:区段查询及增量索引取代实时索引
1.区段查询索引系统须要通过主查询来获取所有的文档信息,一种简单的实现是将整个表的数据读入内存,可是这可能导致整个表被锁定并使得其它操作被阻止(比如:在MyISAM格式上的INSERT操作),同一时 ...
sphinx续5-主索引增量索引和实时索引
原文件地址:http://blog.itpub.net/29806344/viewspace-1400942/ 在数据库数据非常庞大的时候,而且实时有新的数据插入,如果我们不更新索引,新的数据就sea ...
Sphinx 全量索引加实时索引
source mysql { type = mysql sql_host = 10.10.3.181 sql_user = root sql_pass = dsideal sql_db = dside ...
sphinx （coreseek）——3、区段查询与增量索引实例
首先本文测试数据100多万的域名的wwwtitle 信息检索数据: 首先建立临时表格: CREATE TABLE `sph_counter` ( `index_id` ) NOT NULL, `m ...
sphinx（coreseek）——1、增量索引
首先介绍一下 CoreSeek/Sphinx的发布包 indexer: 用于创建全文索引; search: 一个简单的命令行(CLI) 的测试程序,用于测试全文索引; search ...
sphinx增量索引和主索引来实现索引的实时更新
项目中文章的信息内容因为持续有新增,而文章总量的基数又比较大,所以做搜索的时候,用了主索引+增量索引这种方式来实现索引的实时更新. 实现原理: 1. 新建一张表,记录一下上一次已经创建好索引的最后一条 ...
Sphinx实时索引
数据库中的数据很大,然后我有些新的数据后来加入到数据库中,也希望能够检索到,全部重新建立索引很消耗资源,这样需要用到“主索引+增量索引”的思路来解决,这个模式实现的基本原理是设置两个数据源和两个索引. ...
sphinx实时索引和高亮显示
sphinx实时索引和高亮显示时间 2014-06-25 14:50:58 linux技术分享 -欧阳博客原文 http://www.wantlearn.net/825 主题 Sphinx数据 ...
Lucene -- 实时索引
lucene的实时搜索可以分成:实时和近实时的搜索. 实时只能依靠内存了. 近实时可以用lucene中提供org.apache.lucene.index.DirectoryReader.open(In ...

随机推荐

ThinkPhp学习10
原文:ThinkPhp学习10 查询操作 Action模块 User下的search public function search(){ //判断username是否已经传入,且不为空 if(isse ...
setenv 和 set
setenv 和 set 是在csh系列的命令,当然bash中也有set,还是有出入的. set 是对当前进程有效,不会传递给子进程 setenv 不仅对当前进程有效,也会传递给子进程. 语法 ...
利用jquery+iframe做一个ajax上传效果
以下是自学it网--中级班上课笔记网址:www.zixue.it html页面 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict ...
[置顶] Cocos2d-x 实例源码分析之二小实例的主框架
这篇文章是分析第一个小实例ActionTest的源码.其实所有实例程序的结构都是一样的,只有特定方法里的代码不同,大的框架都是一样的.也就是说看完这篇文章你就可以自己开始分析其他源码了. 废话不多说, ...
Hadoop之MapReduce程序应用三
摘要:MapReduce程序进行数据去重. 关键词:MapReduce 数据去重数据源:人工构造日志数据集log-file1.txt和log-file2.txt. log-file1.txt内容 ...
dtach-linux-分离功能-小工具 - 点点滴滴 Linux | 点点滴滴 Linux
dtach-linux-分离功能-小工具 - 点点滴滴 Linux | 点点滴滴 Linux dtach-linux-分离功能-小工具 2013年05月20日 ⁄ Linux工具 ⁄ 共 1775字 ...
Spring MVC的异步模式
高性能的关键:Spring MVC的异步模式我承认有些标题党了,不过话说这样其实也没错,关于“异步”处理的文章已经不少,代码例子也能找到很多,但我还是打算发表这篇我写了好长一段时间,却一直没发表 ...
hdu1565+hdu1569（最大点权独立集）
传送门:hdu1565 方格取数(1) 传送门:hdu1569 方格取数(2) 定理:1. 最小点权覆盖集=最小割=最大流2. 最大点权独立集=总权-最小点权覆盖集步骤: 1. 先染色,取一个点染白 ...
hdu3829（最大独立集）
传送门:Cat VS Dog 题意:动物园有N只猫,M只狗,P个小孩.每个小孩都有自己喜欢的动物和讨厌的动物,如果他喜欢狗,那么就讨厌猫, 如果他讨厌狗,那么他就喜欢猫.某个小孩能开心,当且仅当他喜欢 ...
【翻译】我钟爱的Visual Studio前端开发工具/扩展
原文:[翻译]我钟爱的Visual Studio前端开发工具/扩展怎么样让Visual Studio更好地编写HTML5, CSS3, JavaScript, jQuery,换句话说就是如何更好地做 ...

Coreseek:部门查询和增量索引代替实时索引

Coreseek:部门查询和增量索引代替实时索引的更多相关文章

随机推荐

热门专题