5. QUERY REWRITING 作用: query rewriting is the task of altering a given query so that it will get better results and, more importantly, to help solve the recall problem. can treat it as a machine translation problem: language of user queries(S) <=> l…
ABSTRACT: 此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting: 此文内容基于拥有百亿url索引的yahoo搜素引擎: Keywords: learning to rank; query rewriting; semantic matching; deep learning; 1. INTRODUCTION 1)搜索相关性的发展: 早期 - concentrated on text…
7. RECENCY-SENSITIVE RANKING 作用: 为recency-sensitive的query提高排序质量: 对于这类query,用户不仅要相关的还需要最新的信息: 方法:recency-demoted relevance 1) 对每篇doc,按照它的freshness程度进行分级:very fresh, fresh, slightly out-dated, stale, 和 non-time-sensitive(与时间无关): 2) 在base relevance的基础上,…
文章链接 https://www.kdd.org/kdd2016/papers/files/adf0361-yinA.pdf abstract 点击特征在长尾query上的稀疏性问题 基础相关性三大技术:排序函数,语义匹配特征,query改写 introduction 问题: 1)直接文本匹配的问题:query和doc的语义差异,query中的‘how much’如何匹配doc中的‘price’: 2)大量的长尾query使得点击模型失效: 3)用户视搜索引擎为智能问答系统,希望一键找到答案.…
3. MACHINE LEARNED RANKING 1) 完全使用不好的数据去训练模型不可行,因为负面结果不可能覆盖到所有方面: 2) 搜索可以看做是个二分问题,在此实验中,我们使用gradient boosting trees(GBDT) with logistic loss,该方法可以用来减少首页出现的bad urls - 该方法首先确定urls与给定query相关与否的分界线(logistic loss): 而后在模型中加入Perfect.Excellent.Good的信息去区分urls…
继上篇了解了使用MapReduce计算平均数以及去重后,我们再来一探MapReduce在排序以及单表关联上的处理方法.在MapReduce系列的第一篇就有说过,MapReduce不仅是一种分布式的计算方法,更是一种解决问题的新思维.新思路.将原先看似可以一条龙似的处理一刀切成两端,一端是Map.一端是Reduce,Map负责分,Reduce负责合. 1.MapReduce排序 问题模型: 给出多个数据文件输入如: sortfile1.txt 11 13 15 17 19 21 23 25 27…
本博文主要针对UNP一书中的第六章内容来聊聊I/O复用技术以及其在网络编程中的实现 1. I/O复用技术 I/O多路复用是指内核一旦发现进程指定的一个或者多个I/O条件准备就绪,它就通知该进程.I/O复用适用于以下场合: (1) 当客户处理多个描述符(一般是交互式输入或网络套接字),必须适用I/O复用 (2) 当一个客户处理多个套接字时,这种情况很少见,但也可能出现 (3) 当一个TCP服务器既要处理监听套接字,又要处理已连接套接字,一般就要使用I/O复用 (4) 如果一个服务器既要适用TCP,…
unp第二章主要将了TCP和UDP的简介,这些在<TCP/IP详解>和<计算机网络>等书中有很多细致的讲解,可以参考本人的这篇博客[计算机网络 第五版]阅读笔记之五:运输层,这篇博客就不再赘述. 本篇博客主要记录套接字编程API,从一些基本的API来一步一步了解套接字网络编程. 1.套接字地址结构 大多数的套接字函数都以一个指向套接字地址结构的指针作为参数.每个协议簇都定义了自己的套接字地址结构. 套接字地址结构均以sockaddr_开头,并以对应每个协议簇的唯一后缀结尾. 1.1…
Think in UML 阅读笔记(三) 把从现实世界中记录下来的原始需求信息,再换成一种可以知道开发的表达方式.UML通过被称为之概念化的过程来建立适合计算机理解和实现的模型,这个模型被称为分析模型,它介于原始需求和计算机实现之间,是一种过渡模型.绘制分析模型最主要的元模型有:边界类(boundary).实体类(entity).控制类(control).UML采用控制类来表达原始需求中的动态信息,即业务或用例场景中的步骤和活动.除了控制类外,其他类之间都不能直接相互访问,他们需要通过控制类来代…
Kafka 第三章,第四章阅读笔记 Kafka 发送消息有三种方式:不关心结果的,同步方式,异步方式. Kafka 的异常主要有两类:一种是可重试异常,一种是无需重试异常. 生产者的配置: acks 越大,越不容易丢失消息,但是吞吐量下降. buffer.memory,设置不当会导致阻塞或者抛出异常. compression.type snappy和gzip, lz4. retries 重试次数, 如果要保证消息的顺序,必须保证max.in.flight.requests.per.connect…