【阅读笔记】Ranking Relevance in Yahoo Search （三）—— query rewriting

【【阅读笔记】Ranking Relevance in Yahoo Search （三）—— query rewriting】的更多相关文章

【阅读笔记】Ranking Relevance in Yahoo Search （三）—— query rewriting

5. QUERY REWRITING 作用: query rewriting is the task of altering a given query so that it will get better results and, more importantly, to help solve the recall problem. can treat it as a machine translation problem: language of user queries(S) <=> l…

【阅读笔记】Ranking Relevance in Yahoo Search （一）—— introduction & background

ABSTRACT: 此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting: 此文内容基于拥有百亿url索引的yahoo搜素引擎: Keywords: learning to rank; query rewriting; semantic matching; deep learning; 1. INTRODUCTION 1)搜索相关性的发展: 早期 - concentrated on text…

【阅读笔记】Ranking Relevance in Yahoo Search （四 / 完结篇）—— recency-sensitive ranking

7. RECENCY-SENSITIVE RANKING 作用: 为recency-sensitive的query提高排序质量: 对于这类query,用户不仅要相关的还需要最新的信息: 方法:recency-demoted relevance 1) 对每篇doc,按照它的freshness程度进行分级:very fresh, fresh, slightly out-dated, stale, 和 non-time-sensitive(与时间无关): 2) 在base relevance的基础上,…

Ranking relevance in yahoo search (2016)论文阅读

文章链接 https://www.kdd.org/kdd2016/papers/files/adf0361-yinA.pdf abstract 点击特征在长尾query上的稀疏性问题基础相关性三大技术:排序函数,语义匹配特征,query改写 introduction 问题: 1)直接文本匹配的问题:query和doc的语义差异,query中的‘how much’如何匹配doc中的‘price’: 2)大量的长尾query使得点击模型失效: 3)用户视搜索引擎为智能问答系统,希望一键找到答案.…

【阅读笔记】Ranking Relevance in Yahoo Search （二）—— maching learned ranking

3. MACHINE LEARNED RANKING 1) 完全使用不好的数据去训练模型不可行,因为负面结果不可能覆盖到所有方面: 2) 搜索可以看做是个二分问题,在此实验中,我们使用gradient boosting trees(GBDT) with logistic loss,该方法可以用来减少首页出现的bad urls - 该方法首先确定urls与给定query相关与否的分界线(logistic loss): 而后在模型中加入Perfect.Excellent.Good的信息去区分urls…

Hadoop阅读笔记（三）——深入MapReduce排序和单表连接

继上篇了解了使用MapReduce计算平均数以及去重后,我们再来一探MapReduce在排序以及单表关联上的处理方法.在MapReduce系列的第一篇就有说过,MapReduce不仅是一种分布式的计算方法,更是一种解决问题的新思维.新思路.将原先看似可以一条龙似的处理一刀切成两端,一端是Map.一端是Reduce,Map负责分,Reduce负责合. 1.MapReduce排序问题模型: 给出多个数据文件输入如: sortfile1.txt 11 13 15 17 19 21 23 25 27…

【unix网络编程第三版】阅读笔记（五）：I/O复用：select和poll函数

本博文主要针对UNP一书中的第六章内容来聊聊I/O复用技术以及其在网络编程中的实现 1. I/O复用技术 I/O多路复用是指内核一旦发现进程指定的一个或者多个I/O条件准备就绪,它就通知该进程.I/O复用适用于以下场合: (1) 当客户处理多个描述符(一般是交互式输入或网络套接字),必须适用I/O复用 (2) 当一个客户处理多个套接字时,这种情况很少见,但也可能出现 (3) 当一个TCP服务器既要处理监听套接字,又要处理已连接套接字,一般就要使用I/O复用 (4) 如果一个服务器既要适用TCP,…

【unix网络编程第三版】阅读笔记（二）：套接字编程简介

unp第二章主要将了TCP和UDP的简介,这些在<TCP/IP详解>和<计算机网络>等书中有很多细致的讲解,可以参考本人的这篇博客[计算机网络第五版]阅读笔记之五:运输层,这篇博客就不再赘述. 本篇博客主要记录套接字编程API,从一些基本的API来一步一步了解套接字网络编程. 1.套接字地址结构大多数的套接字函数都以一个指向套接字地址结构的指针作为参数.每个协议簇都定义了自己的套接字地址结构. 套接字地址结构均以sockaddr_开头,并以对应每个协议簇的唯一后缀结尾. 1.1…

《大象Think in UML》阅读笔记（三）

Think in UML 阅读笔记(三) 把从现实世界中记录下来的原始需求信息,再换成一种可以知道开发的表达方式.UML通过被称为之概念化的过程来建立适合计算机理解和实现的模型,这个模型被称为分析模型,它介于原始需求和计算机实现之间,是一种过渡模型.绘制分析模型最主要的元模型有:边界类(boundary).实体类(entity).控制类(control).UML采用控制类来表达原始需求中的动态信息,即业务或用例场景中的步骤和活动.除了控制类外,其他类之间都不能直接相互访问,他们需要通过控制类来代…

Kafka 权威指南阅读笔记（第三章，第四章）

Kafka 第三章,第四章阅读笔记 Kafka 发送消息有三种方式:不关心结果的,同步方式,异步方式. Kafka 的异常主要有两类:一种是可重试异常,一种是无需重试异常. 生产者的配置: acks 越大,越不容易丢失消息,但是吞吐量下降. buffer.memory,设置不当会导致阻塞或者抛出异常. compression.type snappy和gzip, lz4. retries 重试次数, 如果要保证消息的顺序,必须保证max.in.flight.requests.per.connect…