Click Models for Web Search(1) - Basic Click Models

这篇文章主要是介绍一些基本的click model，这些不同的click model对用户与搜索结果页的交互行为进行不同的假设。

为了定义一个model，我们需要描述出observed variables，hidden variables，以及它们之间的关联，以及它们对model parameters的依赖关系。当我们获取了model parameters之后，我们便可以进行CTR 预估，或者计算数据的最大似然估计。

1. RANDOM CLICK MODEL (RCM)

这是最简单的一个model，只有一个参数：

这意味着每个document被点击的概率是一样，即。参数的预估比较简单，相当于计算出全局的CTR。当我们获得了的值之后，我们便可以使用简单的Bernoulli分布来对用户的点击行为进行预估。

这个model非常简单，可以作为baseline来看。另外，这个model由于只有一个参数，所以基本不会overfitting。

2. CLICK-THROUGH RATE MODELS (CTR)

我们可以在random click model的基础上进一步，不仅仅只有一个简单的model parameter。下面介绍的model parameter主要与document的排序，或者query-document pair相关。

2.1 RANK-BASED CTR MODEL (RCTR)

对点击日志的研究中经常会用到的一个数据是不同位置下的CTR。根据Joachims等人在2005年发表的paper中可以看出，第1位document的CTR约为0.45，第10位document的CTR则低于0.05。根据这个观察到的现象，我们可以构建一个document点击概率与其位置有关的model：

使用最大似然估计（MLE）来预估model parameters时，可以看成直接计算training set在不同位置上的CTR。RCTR也是一个简单的model，不会遇到overfitting的风险，经常作为baseline来看。

2.2 DOCUMENT-BASED CTR MODEL (DCTR)

另一种思路是对query-document pair的点击率进行建模：

DCTR对每一个query-document pair都构建一个parameter，所以当我们使用过去的观测数据训练兵对新的数据进行预测时，DCTR会比RCM，RCTR更容易overfitting，尤其是当query或者document在以往的数据中没有出现过的时候更是如此。

3. POSITION-BASED MODEL (PBM)

许多click model都会提到所谓的examination hypothesis：

这意味着一个用户点击了某个document，当且仅当他examine了这个document，且这个document是attractive的。参数与可以看做是独立的。这个model对应的Bayesian network如下图所示：

这个参数是用来表示在相应的query下，这个document的attractiveness。需要强调的一点是，这里的attractiveness是document显示在搜索结果页上的摘要的特征，而不代表document的整篇内容。虽然这两者是相关的，但还不能等同看待。

Joachims等人在2005年发表的paper中显示用户examine一个document的概率主要依赖于该document在搜索结果页中的位置，并且是位置越低概率越低。为了将这个特性考虑进model，我们为每个位置引入examination parameters。这样的position-based model (PBM)由Craswell等人在2008年提出，可以表示成如下公式：

4. CASCADE MODEL (CM)

cascade model由Craswell等人在2008年提出，它假设用户在搜索结果页上从上至下浏览document，直至他找到一个相关的document为止。基于这个假设，第1位的document可以认为总是被examine的，而从第2位开始的documents当且仅当其上一个document被examine过且没有被点击时，它才会被examine。cascade model的公式表达如下：

cascade model的参数估计不难，因为该model下，所有的examine事件都是被观察到的（确定的）。cascade model假设第一次点击的document以上的所有documents都被examine过。cascade model只对一个session中只有一次点击行为的事件进行建模，并且它无法解释non-linear examination patterns。cascade model的Bayesian network如下图所示：

cascade model(CM)和position-based model(PBM)的主要区别在于，PBM中一个document的点击概率与排名比它靠前的documents无关，是相互独立的，而CM则不是。另外，CM不允许一次session中有多于一次的点击情况出现，而PBM则是可以的。

5. USER BROWSING MODEL (UBM)

由Dupret and Piwowarski在2008年提出的user browsing model(UBM)是PBM的一种扩展，其包含了cascade model的思路。UBM认为，examination probability虽然以position-based为主，但也需要将之前的点击情况考虑进来：

所以，上式又可以写成：

UBM的Bayesian network如下图所示。左侧的箭头表示examination probability依赖于的点击事件。而反过来又会影响其后面的document的examination probability。

6. DEPENDENT CLICK MODEL (DCM)

Guo等人在2009年提出的dependent click model(DCM)是cascade model的一种扩展，可以对一次session中有多次点击的事件进行建模。这个model假设用户点击了一个document后，仍然有可能examine其它的documents。即：

其中是continuation parameter，只依赖于document的位置。

为了与后面会遇到的model保持一致，也为了简化parameter estimation，我们引入satisfaction variables ，来表示在一次点击发生后用户的satisfaction。

DCM的Bayesian network如下图所示：

7. CLICK CHAIN MODEL (CCM)

click chain model在DCM的基础上更进一步，作者引入了一个参数来解决用户没有任何的点击行为就放弃搜索的情况。他们同时更新了continuation parameter，使之不依赖于document的位置，而是依赖于query-document的relevance。CCM可以用公式表示为：

其中是3个常数（continuation parameters）。

同样地，我们引入satisfaction variable：

CCM假设了satisfaction的概率等同于attractiveness的概率。这是一个很强的假设，因为satisfaction是由document的内容决定的（在点击之后），而attractiveness则主要依赖于document展示在搜索结果页上的摘要。

需要注意的是，CCM是到现在为止唯一的一个区分没有点击后的continuation probability和点击document后dissatisfy的continuation probability的model。CCM的Bayesian network如下图所示：

8. DYNAMIC BAYESIAN NETWORK MODEL (DBN)

由Chapelle and Zhang在2009年提出的dynamic Bayesian network model(DBN)也是cascade model的另一种不同形式的扩展。不同于CCM，DBN假设用户在点击一个document后的satisfaction不同于这个document的attractiveness(或者说perceived relevance)，而是actual relevance：

其中表示用户没有点击document或者点击之后没有satisfy的continuation probability。DBN的Bayesian network如下图所示：

SIMPLIFIED DBN MODEL (SDBN)

当假设时，parameter estimation会变得容易很多。

当我们进一步假设用户点击一个document之后，总是sarisfy的话，即的值总是为1的情形下，SDBN便退化为cascade model。

9. CLICK PROBABILITIES

click model是用于对用户在搜索结果页上的点击行为进行建模。我们讨论的这些basic click models 能够计算出给定一个document后的点击概率，以及在给定相同session中前面的点击事件后对特定document进行点击的概率。前者可以用于预估document的CTR，后者则可以用于模拟点击行为，或者用于计算最大似然。

对于RCM，RCTR，DCTR，PBM这些简单的model来说，对一个document的examination probability不依赖于该document前面的点击。所以对于这些model来说有。对于RCM，RCTR，DCTR来说，这些概率直接等于model parameters：。对于PBM，则是。

对于其余的basic click models来说，document的examination依赖于其上面的document。对于CM，DCM，CCM，DBN，SDBN来说有：

而各model的不同之处在于计算examination probability。对上述models的general rule为：

例如DBN model：。

对于CM，DCM，CCM，DBN，SDBN来说，conditional probability可以用如下公式进行计算：

其中表示再一次特定的query session中的是否点击。又由于：

所以最终计算得到：

另外，对于UBM model来说，计算过程有些不一样。

下图为上面各个model的计算情况的总结：

10. SUMMARY

上述各个model有许多相似之处。

1）attractiveness variable

2）satisfaction variable

3）define how the examination probability depends on the examination, satisfaction and click events for previous documents:

最后再来一张总结图：

本文由笨兔勿应所有，发布于http://www.cnblogs.com/bentuwuying。如果转载，请注明出处，在未经作者同意下将本文用于商业用途，将追究其法律责任。

Click Models for Web Search(1) - Basic Click Models的更多相关文章

Click Models for Web Search(2) - Parameter Estimation
在Click Model中进行参数预估的方法有两种:最大似然(MLE)和期望最大(EM).至于每个click model使用哪种参数预估的方法取决于此model中的随机变量的特性.如果model中的随 ...
web移动前端的click点透问题
在移动端开发中,有时会出现click点透的问题. 一.什么是click点透以下情况,在B元素上有半透明红色遮盖层A,黄色B元素内有可点击链接C. tips:以下举例仅针对webkit内核浏览器,所有 ...
如何用按钮的click事件去触发a标签的click事件
在jQquery中,可以用如下方式触发input.a标签的click事件: <input id="my_input" /> <a id="my_a&qu ...
Mac效率：配置Alfred web search
// 这是一篇导入进来的旧博客,可能有时效性问题. 想用搜索引擎搜东西,或者查字典时,一般的workflow是:打开浏览器-->打开搜索引擎/字典网站-->输入搜索关键字-->回车. ...
Googlebot (Google Web search)
w推测“域名解析过程中,Google crawlers中首先是Googlebo中的Google Web search上阵”. +-----+----------------+------------- ...
DESCRIBE:When you mouse click right-side is open an application and click left-side is attribution.
DESCRIBE:When you mouse click right-side is open an application and click left-side is attribution. ...
移动端web，tap与click事件
一.tap与click的区别两者都会在点击时系统自动触发,但是在手机WEB端,click会有 200~300 ms.延迟来自判断双击和长按,因为只有默认等待时间结束以确定没有后续动作发生时,才会触发 ...
Web API: Security: Basic Authentication
原文地址: http://msdn.microsoft.com/en-us/magazine/dn201748.aspx Custom HttpModule code: using System; u ...
[Angular-Scaled Web] 7. Refactor code into Models
In the previous code, both categories and bookmarks are binded to $rootscope, or let says the same s ...

随机推荐

iOS开发Swift篇（01）变量&常量&元组
iOS开发Swift篇(01) 变量&常量&元组说明: 1)终于要写一写swift了.其实早在14年就已经写了swift的部分博客,无奈时过境迁,此时早已不同往昔了.另外,对于14年 ...
我用了13行代碼開發出来的PHP框架
我只用13行代碼開發的PHP框架,如果您對框架不理解,不知道框架究竟幫您做了什麽事,可以下載此框架看一下, 另外如果您想開發自己的框架也可以由這個框架的思路進行擴展. 源碼下載地址:http://do ...
诚聘：全栈开发人员，三线城市10-16K
北京快鸽联盟信息技术有限公司成立于2013年,专注于校园及社区快递和增值服务.目前已有十余家各地分部,并与上百所大学,各大快递和电商公司有密切合作,年处理快件量超千万,长期处于行业领先地位. 诚聘全栈 ...
【Android】 Android-wifi 直连 wifi direct wifi p2p
现在,Android的支持Wi -Fi的直接点对点点对点(P2P)Android系统的供电设备和其他类型的设备,没有一个热点或互联网连接之间的连接.Android框架提供了一套Wi - Fi的P2P的 ...
java 调用微信截图工具
[算法导论]BFS @ Python
class Graph: def __init__(self): self.V = [] class Vertex: def __init__(self, x): self.key = x self. ...
HDU 4762 Cut the Cake（公式）
Cut the Cake Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Tota ...
关于SpeedButton中使用下划线快捷键不响应的问题
在Windows应用程序,很多都有快捷键功能,这个Delphi也有,就是一个按钮上面有一个比如剪切(&X),这个时候剪切的快捷键就是Alt+X,这个功能有时候还是挺好用的,最近,公司中有同事, ...
Android Studio 中关于NDK编译及jni header生成的问题
之前由于工作原因使用grails这个基于groovy的框架做项目,对groovy感觉很好. 基于groovy的gradle构建系统对我而言自然也是好的没得说. Android Studio 正式版出来 ...
android OOM分析工具LeakCanary
http://my.oschina.net/u/255456/blog/523659?fromerr=oGosxKBf LeakCanary 只是探测到可能出现内存泄露,然后dump 一个java h ...

Click Models for Web Search(1) - Basic Click Models

Click Models for Web Search(1) - Basic Click Models的更多相关文章

随机推荐

热门专题