sphinx索引部分源码续——过程：连接到CSphSource对应的sql数据源，通过fetch row取其中一行，然后解析出field，分词，获得wordhit，最后再加入到CSphSource的Hits里

后面就是初始化一些存储结构，其中重点说下缓存出来的几个临时文件分别的作用。结尾时tmp0的存储的是被上锁的Index，有些Index正在被查询使用故上锁。tmp1，即对应将来生成的spp文件，存储词汇的位置信息，包含该词所在的文档ID，该词所在词典对应的ID，以及该词在本文档中的位置信息。 tmp2，即对应将来生成的spa文件存储的是文档信息，包含了DocID以及DocInfo信息。tmp7对应的是多值查询，感兴趣的可以度娘，这是一种查询方式，这里不做过多解释

// create temp files

CSphAutofile fdLock ( GetIndexFileName("tmp0"), SPH_O_NEW, m_sLastError, true );

CSphAutofile fdHits ( GetIndexFileName ( m_bInplaceSettings ? "spp" : "tmp1" ), SPH_O_NEW, m_sLastError, !m_bInplaceSettings );

CSphAutofile fdDocinfos ( GetIndexFileName ( m_bInplaceSettings ? "spa" : "tmp2" ), SPH_O_NEW, m_sLastError, !m_bInplaceSettings );

CSphAutofile fdTmpFieldMVAs ( GetIndexFileName("tmp7"), SPH_O_NEW, m_sLastError, true );

CSphWriter tOrdWriter;

CSphString sRawOrdinalsFile = GetIndexFileName("tmp4");

下面具体处理每一个Source取出的每一个文档，主要是通过这个IterateHitsNext实现的

具体到该函数可以看到，该函数主要是有两部分组成，即提取索引列(NextDocument),针对该索引列构建索引(BuildHits)

bool CSphSource_Document::IterateHitsNext ( CSphString & sError )

{

assert ( m_pTokenizer );

PROFILE ( src_document );

BYTE ** dFields = NextDocument ( sError );//从数据源中提取需要构建索引的列

if ( m_tDocInfo.m_iDocID==0 )

return true;

if ( !dFields )

return false;

m_tStats.m_iTotalDocuments++;

m_dHits.Reserve ( 1024 );

m_dHits.Resize ( 0 );

BuildHits ( dFields, -1, 0 );//针对提取出的需要索引的列构建索引

return true;

}

具体看一下NexDocument的操作，通过Sql.h中的API——sqlFetchRow，取出一条记录，验证该记录是否合法

将条记录按照Schema分成Feild部分，即需要构建索引的部分，以及Attribute部分，即排序需要用到的属性部分

提取出相关数据后，针对每一条需要索引的item开始构建索引，进入BuildHit函数，首先先初始化相关参数，准备分词器缓存

然后开始分词，分词的过程在这里不具体讲了，这不属于Sphinx的主要涉足领域，当我们把iField即要索引的字段放入分词器中依次解析，然后将分出的词赋值给sWord，将sWord的位置计算后赋值给ipos

将分词后的sWord去词典中查找它对应的词ID，这样我们就收集全了这个词的所有详细信息，创建一个类型为CSphWordHit类型的tHit,其中存储了该sWord所在的DocID，在词典中对应的词ID，以及在文档中词的位置信息Pos

SphWordID_t iWord = m_pDict->GetWordID ( sWord );

if ( iWord )

{

CSphWordHit & tHit = m_dHits.Add ();//将tHit放入dHit中去

tHit.m_iDocID = m_tDocInfo.m_iDocID;

tHit.m_iWordID = iWord;

tHit.m_iWordPos = iPos;

} else

{

iLastStep = m_iStopwordStep;

}

处理完该词后，如果是中文的话还会进一步去判断其是否有近义词出现，。。。，最后将所有的sWord的信息tHit都放入到m_dHits中去,形成我们的词索引spp索引.

当该iField索引字段全部都索引完成后，在dHit中添加结束标记!

摘自：http://frankiewb.blog.51cto.com/8202664/1359897

sphinx索引部分源码续——过程：连接到CSphSource对应的sql数据源，通过fetch row取其中一行，然后解析出field，分词，获得wordhit，最后再加入到CSphSource的Hits里的更多相关文章

shinx索引部分源码分析——过程：连接到CSphSource对应的sql数据源，通过fetch row取其中一行，然后解析出field，分词，获得wordhit，最后再加入到CSphSource的Hits里
CSphSource 数据源 CSphSource_XMLPipe2-XML文件获取数据 CSphSource_SQL-SQL(MySQL)获取数据 CSphIndex 索引器派生类CSphInde ...
Ubuntu 14.04 LTS 下 android 2.3.5 源码编译过程
Ubuntu 14.04 LTS 下 android 2.3.5 源码编译过程在新的Ubuntu 64位系统下去编译早期的安卓源码是会出现很多问题的,因为64位系统在安装完成后,很多32位的兼容 ...
mysql-5.5.28源码安装过程中错误总结
介绍一下关于mysql-5.5.28源码安装过程中几大错误总结,希望此文章对各位同学有所帮助.系统centOS 6.3 mini (没有任何编译环境)预编译环境首先装了众所周知的 cmake(yum ...
英蓓特Mars board的android4.0.3源码编译过程
英蓓特Mars board的android4.0.3源码编译过程作者:StephenZhu(大桥++) 2013年8月22日若要转载,请注明出处一.编译环境搭建及要点: 1. 虚拟机软件virt ...
Hadoop源码编译过程
一. 为什么要编译Hadoop源码 Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通 ...
TextMate2 最新版下载及源码编译过程
TextMate2 已经开源,我刚编译成功,如果有需要的同学可以点击下面百度网盘的链接下载.我系统版本是:Mac OS X 10.8.4. TextMate version 2.0-alpha.946 ...
snort-2.9.7.0源码安装过程
2015/02/15,centos6.5-64-minimal,初始205个包 [root@localhost snort]# yum install wget[root@localhost snor ...
nginx源码编译以及源码编译过程中遇到的问题
本文主要讲nginx安装以及安装过程中遇到的问题. 谈到nginx 必须聊聊它的起源和发展. nginx是由俄罗斯工程师Igor Sysoev 用C语言开发的一个免费开源的Web服务器软件,于2004 ...
android源码编译过程
1.下载好android源码包. 2.装好vm,ubuntu(如果能在实体机装linux更好). 3.安装所需要的deb包在终端执行如下命令: sudo apt-get install flex b ...

随机推荐

Extjs中获取grid数据
(1)grid.getStore().getRange(0,store.getCount()); //得到grid所有的行 (2)grid.getSelectionModel().getSelecti ...
BestCoder Round #79 (div.2)-jrMz and angles，，暴力求解~
jrMz and angle Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Other ...
CodeForces 632A
A - Grandma Laura and Apples Time Limit:1000MS Memory Limit:262144KB 64bit IO Format:%I64d & ...
POJ 1724 二维费用最短路
题目大意:有N个城市,编号1-N有R条路,每条路(单向)的起点为Si,终点为Di,长度为Li,如果要走这条路需要花Ti的钱现在你只有K元钱,求在不超支的前提下,从1走到N需要的最短距离这里总是希望路 ...
[luoguP2420] 让我们异或吧（dfs + 异或的性质）
传送门因为异或满足结合律和交换律. a^b^b=a 所以这个题直接求根节点到每个点路径上的异或值. 对于每组询问直接输出根到两个点的异或值的异或的值. ——代码 #include <cstdi ...
codevs 1743 反转卡片 rope or splay
[codevs1743]反转卡片题目描述 Description [dzy493941464|yywyzdzr原创] 小A将N张卡片整齐地排成一排,其中每张卡片上写了1~N的一个整数,每张卡片上的数 ...
逆序对数列（BZOJ 2431）
题目描述对于一个数列{ai},如果有i<j且ai>aj,那么我们称ai与aj为一对逆序对数.若对于任意一个由1~n自然数组成的数列,可以很容易求出有多少个逆序对数.那么逆序对数为k的这样 ...
【HDOJ6304】Chiaki Sequence Revisited（数学）
题意:给定一个序列a,定义a[1]=a[2]=1,a[n]=a[n-a[n-1]]+a[n-1-a[n-2]](n>=3),求该序列的前n项和是多少,结果对 1e9+7 取模 n<=1e1 ...
用Google Analytics UTM标注社会化媒体分享流量来源
随着社会化媒体营销概念近两年的日益盛行,敢于吃螃蟹的营销工作者们展开了一些尝试,发现对社会化营销效果进行综合评估是一大难点,价值难以衡量.主要原因在于它的营销效果中混杂了直接的目标转化.品牌宣传.品牌 ...
Codeforces 645D Robot Rapping Results Report【拓扑排序+二分】
题目链接: http://codeforces.com/problemset/problem/645/D 题意: 给定n个机器人的m个能力大小关系,问你至少要前几个大小关系就可以得到所有机器人的能力顺 ...

sphinx索引部分源码续——过程：连接到CSphSource对应的sql数据源，通过fetch row取其中一行，然后解析出field，分词，获得wordhit，最后再加入到CSphSource的Hits里

sphinx索引部分源码续——过程：连接到CSphSource对应的sql数据源，通过fetch row取其中一行，然后解析出field，分词，获得wordhit，最后再加入到CSphSource的Hits里的更多相关文章

随机推荐

热门专题