Click Models for Web Search(1) - Basic Click Models
这篇文章主要是介绍一些基本的click model,这些不同的click model对用户与搜索结果页的交互行为进行不同的假设。
为了定义一个model,我们需要描述出observed variables,hidden variables,以及它们之间的关联,以及它们对model parameters的依赖关系。当我们获取了model parameters之后,我们便可以进行CTR 预估,或者计算数据的最大似然估计。
1. RANDOM CLICK MODEL (RCM)
这是最简单的一个model,只有一个参数:
这意味着每个document被点击的概率是一样,即。参数的预估比较简单,相当于计算出全局的CTR。当我们获得了的值之后,我们便可以使用简单的Bernoulli分布来对用户的点击行为进行预估。
这个model非常简单,可以作为baseline来看。另外,这个model由于只有一个参数,所以基本不会overfitting。
2. CLICK-THROUGH RATE MODELS (CTR)
我们可以在random click model的基础上进一步,不仅仅只有一个简单的model parameter。下面介绍的model parameter主要与document的排序,或者query-document pair相关。
2.1 RANK-BASED CTR MODEL (RCTR)
对点击日志的研究中经常会用到的一个数据是不同位置下的CTR。根据Joachims等人在2005年发表的paper中可以看出,第1位document的CTR约为0.45,第10位document的CTR则低于0.05。根据这个观察到的现象,我们可以构建一个document点击概率与其位置有关的model:
使用最大似然估计(MLE)来预估model parameters时,可以看成直接计算training set在不同位置上的CTR。RCTR也是一个简单的model,不会遇到overfitting的风险,经常作为baseline来看。
2.2 DOCUMENT-BASED CTR MODEL (DCTR)
另一种思路是对query-document pair的点击率进行建模:
DCTR对每一个query-document pair都构建一个parameter,所以当我们使用过去的观测数据训练兵对新的数据进行预测时,DCTR会比RCM,RCTR更容易overfitting,尤其是当query或者document在以往的数据中没有出现过的时候更是如此。
3. POSITION-BASED MODEL (PBM)
许多click model都会提到所谓的examination hypothesis:
这意味着一个用户点击了某个document,当且仅当他examine了这个document,且这个document是attractive的。参数与可以看做是独立的。这个model对应的Bayesian network如下图所示:
这个参数是用来表示在相应的query下,这个document的attractiveness。需要强调的一点是,这里的attractiveness是document显示在搜索结果页上的摘要的特征,而不代表document的整篇内容。虽然这两者是相关的,但还不能等同看待。
Joachims等人在2005年发表的paper中显示用户examine一个document的概率主要依赖于该document在搜索结果页中的位置,并且是位置越低概率越低。为了将这个特性考虑进model,我们为每个位置引入examination parameters。这样的position-based model (PBM)由Craswell等人在2008年提出,可以表示成如下公式:
4. CASCADE MODEL (CM)
cascade model由Craswell等人在2008年提出,它假设用户在搜索结果页上从上至下浏览document,直至他找到一个相关的document为止。基于这个假设,第1位的document可以认为总是被examine的,而从第2位开始的documents当且仅当其上一个document被examine过且没有被点击时,它才会被examine。cascade model的公式表达如下:
cascade model的参数估计不难,因为该model下,所有的examine事件都是被观察到的(确定的)。cascade model假设第一次点击的document以上的所有documents都被examine过。cascade model只对一个session中只有一次点击行为的事件进行建模,并且它无法解释non-linear examination patterns。cascade model的Bayesian network如下图所示:
cascade model(CM)和position-based model(PBM)的主要区别在于,PBM中一个document的点击概率与排名比它靠前的documents无关,是相互独立的,而CM则不是。另外,CM不允许一次session中有多于一次的点击情况出现,而PBM则是可以的。
5. USER BROWSING MODEL (UBM)
由Dupret and Piwowarski在2008年提出的user browsing model(UBM)是PBM的一种扩展,其包含了cascade model的思路。UBM认为,examination probability虽然以position-based为主,但也需要将之前的点击情况考虑进来:
所以,上式又可以写成:
UBM的Bayesian network如下图所示。左侧的箭头表示examination probability依赖于的点击事件。而反过来又会影响其后面的document的examination probability。
6. DEPENDENT CLICK MODEL (DCM)
Guo等人在2009年提出的dependent click model(DCM)是cascade model的一种扩展,可以对一次session中有多次点击的事件进行建模。这个model假设用户点击了一个document后,仍然有可能examine其它的documents。即:
其中是continuation parameter,只依赖于document的位置。
为了与后面会遇到的model保持一致,也为了简化parameter estimation,我们引入satisfaction variables ,来表示在一次点击发生后用户的satisfaction。
DCM的Bayesian network如下图所示:
7. CLICK CHAIN MODEL (CCM)
click chain model在DCM的基础上更进一步,作者引入了一个参数来解决用户没有任何的点击行为就放弃搜索的情况。他们同时更新了continuation parameter,使之不依赖于document的位置,而是依赖于query-document的relevance。CCM可以用公式表示为:
其中是3个常数(continuation parameters)。
同样地,我们引入satisfaction variable:
CCM假设了satisfaction的概率等同于attractiveness的概率。这是一个很强的假设,因为satisfaction是由document的内容决定的(在点击之后),而attractiveness则主要依赖于document展示在搜索结果页上的摘要。
需要注意的是,CCM是到现在为止唯一的一个区分没有点击后的continuation probability和点击document后dissatisfy的continuation probability的model。CCM的Bayesian network如下图所示:
8. DYNAMIC BAYESIAN NETWORK MODEL (DBN)
由Chapelle and Zhang在2009年提出的dynamic Bayesian network model(DBN)也是cascade model的另一种不同形式的扩展。不同于CCM,DBN假设用户在点击一个document后的satisfaction不同于这个document的attractiveness(或者说perceived relevance),而是actual relevance:
其中表示用户没有点击document或者点击之后没有satisfy的continuation probability。DBN的Bayesian network如下图所示:
SIMPLIFIED DBN MODEL (SDBN)
当假设时,parameter estimation会变得容易很多。
当我们进一步假设用户点击一个document之后,总是sarisfy的话,即的值总是为1的情形下,SDBN便退化为cascade model。
9. CLICK PROBABILITIES
click model是用于对用户在搜索结果页上的点击行为进行建模。我们讨论的这些basic click models 能够计算出给定一个document后的点击概率,以及在给定相同session中前面的点击事件后对特定document进行点击的概率。前者可以用于预估document的CTR,后者则可以用于模拟点击行为,或者用于计算最大似然。
对于RCM,RCTR,DCTR,PBM这些简单的model来说,对一个document的examination probability不依赖于该document前面的点击。所以对于这些model来说有。对于RCM,RCTR,DCTR来说,这些概率直接等于model parameters:。对于PBM,则是。
对于其余的basic click models来说,document的examination依赖于其上面的document。对于CM,DCM,CCM,DBN,SDBN来说有:
而各model的不同之处在于计算examination probability。对上述models的general rule为:
例如DBN model:。
对于CM,DCM,CCM,DBN,SDBN来说,conditional probability可以用如下公式进行计算:
其中表示再一次特定的query session中的是否点击。又由于:
所以最终计算得到:
另外,对于UBM model来说,计算过程有些不一样。
下图为上面各个model的计算情况的总结:
10. SUMMARY
上述各个model有许多相似之处。
1)attractiveness variable
2)satisfaction variable
3)define how the examination probability depends on the examination, satisfaction and click events for previous documents:
最后再来一张总结图:
版权声明:
本文由笨兔勿应所有,发布于http://www.cnblogs.com/bentuwuying。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。
Click Models for Web Search(1) - Basic Click Models的更多相关文章
- Click Models for Web Search(2) - Parameter Estimation
在Click Model中进行参数预估的方法有两种:最大似然(MLE)和期望最大(EM).至于每个click model使用哪种参数预估的方法取决于此model中的随机变量的特性.如果model中的随 ...
- web移动前端的click点透问题
在移动端开发中,有时会出现click点透的问题. 一.什么是click点透 以下情况,在B元素上有半透明红色遮盖层A,黄色B元素内有可点击链接C. tips:以下举例仅针对webkit内核浏览器,所有 ...
- 如何用按钮的click事件去触发a标签的click事件
在jQquery中,可以用如下方式触发input.a标签的click事件: <input id="my_input" /> <a id="my_a&qu ...
- Mac效率:配置Alfred web search
// 这是一篇导入进来的旧博客,可能有时效性问题. 想用搜索引擎搜东西,或者查字典时,一般的workflow是:打开浏览器-->打开搜索引擎/字典网站-->输入搜索关键字-->回车. ...
- Googlebot (Google Web search)
w推测“域名解析过程中,Google crawlers中首先是Googlebo中的Google Web search上阵”. +-----+----------------+------------- ...
- DESCRIBE:When you mouse click right-side is open an application and click left-side is attribution.
DESCRIBE:When you mouse click right-side is open an application and click left-side is attribution. ...
- 移动端web,tap与click事件
一.tap与click的区别 两者都会在点击时系统自动触发,但是在手机WEB端,click会有 200~300 ms.延迟来自判断双击和长按,因为只有默认等待时间结束以确定没有后续动作发生时,才会触发 ...
- Web API: Security: Basic Authentication
原文地址: http://msdn.microsoft.com/en-us/magazine/dn201748.aspx Custom HttpModule code: using System; u ...
- [Angular-Scaled Web] 7. Refactor code into Models
In the previous code, both categories and bookmarks are binded to $rootscope, or let says the same s ...
随机推荐
- [推荐]DataX、DbSync和Timetunnel学习贴
[推荐]DataX.DbSync和Timetunnel学习贴 一 DataX 二 DbSync 三 Timetunnel TimeTunnel :http://code.taobao.org/p/T ...
- 如何通过linux ssh远程linux不用输入密码登入
如何通过一台linux ssh远程其他linux服务器时,不要输入密码,可以自动登入.提高远程效率,不用记忆各台服务器的密码. 工具/原料 ssh,ssh-keygen,scp 方法/步骤 首 ...
- 求二叉树的深度和宽度[Java]
这个是常见的对二叉树的操作.总结一下: 设节点的数据结构,如下: class TreeNode { char val; TreeNode left = null; TreeNode right = n ...
- Android 的EditText实现不可编辑
android:editable is deprecated: Use an <EditText> to make it editable android:editable is depr ...
- Git教程学习(五)
14. 解决冲突 14.1. 场景 当分支A和分支B在同一个文件上都有修改时会出现冲突.常见的情况是从master分支的基础上生成了新分支dev,然后在dev上进行了修改并add&commit ...
- Oracle Essbase入门系列(四)
成员存储类型 除了大纲计算,维度成员的另一项重要属性是存储类型,存储类型决定维度成员相关单元格的物理存储方式.在维库中编辑成员的[Data Storage]属性,下拉菜单中可选的5种,再加上Share ...
- Codeforces Round #384 (Div. 2) E. Vladik and cards 状压dp
E. Vladik and cards 题目链接 http://codeforces.com/contest/743/problem/E 题面 Vladik was bored on his way ...
- wordpress自动保存远程图片插件 DX-auto-save-images
wordpress自动保存远程图片插件DX-auto-save-images 解决了保存文章就可以自动将远程图片保存到你的服务器上了. 具体操作步骤如下: 1.安装启用wordpress自动保存远程图 ...
- android 14.04 64位 adb cannot run program adb
按照网上的说法: Failed to get the adb version: Cannot run program "adb": error=2, 没有那个文件或目录 64位系统 ...
- 飞思卡尔9S12X系列双核中的协处理器XGATE使用方法
http://adi.chinaaet.com/analog/blogdetail/24482.html