wukong引擎源码分析之索引——part 3 文档评分 无非就是将docid对应的fields信息存储起来,为搜索结果rank评分用
之前的文章分析过,接受索引请求处理的代码在segmenter_worker.go里:

- func (engine *Engine) segmenterWorker() {
- for {
- request := <-engine.segmenterChannel //关键
- tokensMap := make(map[string][]int)
- numTokens := 0
- if !engine.initOptions.NotUsingSegmenter && request.data.Content != "" {
- // 当文档正文不为空时,优先从内容分词中得到关键词
- segments := engine.segmenter.Segment([]byte(request.data.Content))
- for _, segment := range segments {
- token := segment.Token().Text()
- if !engine.stopTokens.IsStopToken(token) {
- tokensMap[token] = append(tokensMap[token], segment.Start())
- }
- }
- numTokens = len(segments)
- } else {
- // 否则载入用户输入的关键词
- for _, t := range request.data.Tokens {
- if !engine.stopTokens.IsStopToken(t.Text) {
- tokensMap[t.Text] = t.Locations
- }
- }
- numTokens = len(request.data.Tokens)
- }
- // 加入非分词的文档标签
- for _, label := range request.data.Labels {
- if !engine.initOptions.NotUsingSegmenter {
- if !engine.stopTokens.IsStopToken(label) {
- tokensMap[label] = []int{}
- }
- } else {
- tokensMap[label] = []int{}
- }
- }
- indexerRequest := indexerAddDocumentRequest{
- document: &types.DocumentIndex{
- DocId: request.docId,
- TokenLength: float32(numTokens),
- Keywords: make([]types.KeywordIndex, len(tokensMap)),
- },
- }
- iTokens := 0
- for k, v := range tokensMap {
- indexerRequest.document.Keywords[iTokens] = types.KeywordIndex{
- Text: k,
- // 非分词标注的词频设置为0,不参与tf-idf计算
- Frequency: float32(len(v)),
- Starts: v}
- iTokens++
- }
- var dealDocInfoChan = make(chan bool, 1)
- indexerRequest.dealDocInfoChan = dealDocInfoChan
- engine.indexerAddDocumentChannels[request.shard] <- indexerRequest
- rankerRequest := rankerAddDocRequest{
- docId: request.docId,
- fields: request.data.Fields,
- dealDocInfoChan: dealDocInfoChan,
- }
- engine.rankerAddDocChannels[request.shard] <- rankerRequest
- }
- }

上面代码的作用就是在统计词频和单词位置(注意:tag也是作为搜索的单词,不过其词频是0,而无法参与tf-idf计算),并封装为indexerRequest,发送给engine.indexerAddDocumentChannels[request.shard]
此外,红色部分代码是在为文档评分做准备,engine/ranker_worker.go:
- func (engine *Engine) rankerAddDocWorker(shard int) {
- for {
- request := <-engine.rankerAddDocChannels[shard] //关键
- docInfo := engine.rankers[shard].AddDoc(request.docId, request.fields, request.dealDocInfoChan)
- // save
- if engine.initOptions.UsePersistentStorage {
- engine.persistentStorageIndexDocumentChannels[shard] <- persistentStorageIndexDocumentRequest{
- typ: "info",
- docId: request.docId,
- docInfo: docInfo,
- }
- }
- }
- }
AddDoc无非就是将docid对应的fields信息存储起来,为搜索结果rank评分用!
- // 给某个文档添加评分字段
- func (ranker *Ranker) AddDoc(docId uint64, fields interface{}, dealDocInfoChan <-chan bool) *types.DocInfo {
- if ranker.initialized == false {
- log.Fatal("排序器尚未初始化")
- }
- <-dealDocInfoChan // 等待索引器处理完成
- ranker.DocInfosShard.Lock()
- defer ranker.DocInfosShard.Unlock()
- if _, found := ranker.DocInfosShard.DocInfos[docId]; !found {
- ranker.DocInfosShard.DocInfos[docId] = new(types.DocInfo)
- ranker.DocInfosShard.NumDocuments++
- }
- ranker.DocInfosShard.DocInfos[docId].Fields = fields
- return ranker.DocInfosShard.DocInfos[docId]
- }
wukong引擎源码分析之索引——part 3 文档评分 无非就是将docid对应的fields信息存储起来,为搜索结果rank评分用的更多相关文章
- wukong引擎源码分析之索引——part 2 持久化 直接set(key,docID数组)在kv存储里
前面说过,接收indexerRequest的代码在index_worker.go里: func (engine *Engine) indexerAddDocumentWorker(shard int) ...
- wukong引擎源码分析之索引——part 1 倒排列表本质是有序数组存储
searcher.IndexDocument(0, types.DocumentIndexData{Content: "此次百度收购将成中国互联网最大并购"}) engine.go ...
- wukong引擎源码分析之搜索——docid有序的数组里二分归并求交集,如果用跳表的话,在插入索引时会更快
searcher.Search(types.SearchRequest{Text: "百度中国"}) // 查找满足搜索条件的文档,此函数线程安全 func (engine *En ...
- Spark源码分析 – 汇总索引
http://jerryshao.me/categories.html#architecture-ref http://blog.csdn.net/pelick/article/details/172 ...
- 源码分析 Kafka 消息发送流程(文末附流程图)
温馨提示:本文基于 Kafka 2.2.1 版本.本文主要是以源码的手段一步一步探究消息发送流程,如果对源码不感兴趣,可以直接跳到文末查看消息发送流程图与消息发送本地缓存存储结构. 从上文 初识 Ka ...
- 转:Irrlicht 0.1引擎源码分析与研究(一)
目录(?)[-] 主要技术特性 引擎概览 Irrlicht的窗口管理 Irrlicht引擎主要是由一个名叫Nikolaus Gebhardt奥地利人所设计,是sourceforge上的一个开源项目 ...
- bleve搜索引擎源码分析之索引——mapping真复杂啊
接下来看看下面index部分的源码实现: data := struct { Name string Des string }{ Name: "hello world this is bone ...
- bleve搜索引擎源码分析之索引——mapping和lucene一样,也有_all
例子: package main import ( "fmt" "github.com/blevesearch/bleve" ) func main() { / ...
- lua源码分析 伪索引
Lua 提供了一个 注册表, 这是一个预定义出来的表, 可以用来保存任何 C 代码想保存的 Lua 值. 这个表可以用有效伪索引 LUA_REGISTRYINDEX 来定位. 任何 C 库都可以在这张 ...
随机推荐
- msp430入门学习41
msp430的其他九 msp430入门学习
- SGU 107 数学题
题意:求平方后末尾9个数是987654321的数个数. 之前做此题,竟然愚蠢到用计算器 在哪里算,还加笔算,SB啊!不知道先打印一下吗! #include<iostream> #inclu ...
- django cookie session操作
Cookie是什么? cookie说的直白点就是保存在用户浏览器端的一个键值对,举个例子,你现在登录了京东商城,你把浏览器关闭之后,你再打开京东,你还是可以对你的账户继续操作,已经购买的商品,订单都是 ...
- 学习技术的三部曲:WHAT、HOW、WHY
★第一步:WHAT 所谓的“WHAT”也就是“What is it?”——这是最简单的层次.在这个层次,你要搞清楚某个东东是[什么]样子的?有[什么]用处?有[什么]特性?有[什么]语法?...... ...
- codeforces edu40
H(dp计数) 题意: 有一颗树,最深的点的深度是n,每个深度为i的点都有ai个孩子. 对于1<=k<=2n-2,回答树上有多少点对之间的距离是k,答案对1e9+7取模 n<=500 ...
- springboot jetty替换tomcat
<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring- ...
- 新闻:融资600万 他用一套系统优化15大HR工作场景 精简入转调离 月开通214家 | IT桔子
新闻:融资600万 他用一套系统优化15大HR工作场景 精简入转调离 月开通214家 | IT桔子 功劳说不上
- 转: 在CentOS 6.X 上面安装 Python 2.7.X
转:https://ruiaylin.github.io/2014/12/12/python%20update/ 评注: yum -y update //这个更新太坑了,1120更新包...想死的心都 ...
- iOS知识点全梳理-b
感谢分享 原文链接:http://www.jianshu.com/p/5d2163640e26 序言 目前形势,参加到iOS队伍的人是越来越多,甚至已经到供过于求了.今年,找过工作人可能会更深刻地体会 ...
- java:BufferedImage推断图像通道顺序并转RGB/BGR
一般来说java ImageIO处理读取图像时.通常是RGB或ARGB格式,可是有的时候.我们须要图像是BGR格式. 比方通过JNI将图像矩阵传递给动态库,动态库里用OpenCV来处理矩阵,而用Ope ...