背景

  • 原有的PageRank方法:通过web上链接结构信息得到页面之间相对的重要性,和特定的查询内容无关

论文涉及到的其他算法

  1. HITS
  2. Hilltop,处理常见的流行查询 popular query
  3. 基本的PageRank算法,我们使用如下迭代来计算ranks得分$$\forall{v}Rank_{i+1}(v)=\sum_{u\in{B_{v}}}Rank_i(u)/N_u$$直到rank向量达到一个稳定的阈值

论文关注点

  • 选取与查询相关的多个话题的PageRank向量集合,通过计算得到一个更精确的与特定话题相关的查询结果,每次都给各个页面赋予一个和此特定话题相关的得分
  • 新方法保证了基于链接的评分与查询挂钩,并且有较小的实时查询处理时间
  • 利用Open Directory和一元语言模型来对话题进行表示
  • 我们可以从各个维度来得到某个用户某个查询q的context,譬如说查询历史记录,层次目录结构,用户保持的书签等。

论文研究方法

概要:每个页面都有一个得分的集合,针对每一个特定的topic
步骤:
  1. 找到一系列基本的topic集合,计算出一系列的PageRank Vectors。基本的类集合是从ODP数据集中得到。
  2. 第二步是在查询时进行的。
    1). 首先确定查询q的上下文q'(分为两种情况);
    2). 计算得到每一个类在q'下的条件概率$$P(c_j|q')$$(利用贝叶斯公式);在使用$$P(c_j)$$时可以根据用户而决定特定的值
    3). 对于每个文档d,我们可以计算他的query-sensitive得分 $$s_{qd}=\sum_jP(c_j|q')\cdot{rank_{jd}}$$

实验结果


数据来源:the latest Web crawl from the Stanford WebBase, 2001


4.1 Similarity Measure for Induced Rankings

评价指标:$$OSim(\tau_1,\tau_2)$$,衡量两个方法之间的URLs的重复的多少

Kendall's $$\tau$$ distance measure: is the probability that $\tau_1'$$ and $\tau_2'$$ agree on the relative ordering of a randomly selected pair of distinct nodes $$(u,v)\in{U\times{U}}$$

4.2 Effect of ODP-Biasing

研究了主题的选择以及bias factor $\alpha$ 对rankings的影响
1. $\alpha$的选择对评分的结果不是很sensitive
2. 应用不同的topically-biased PageRank vectors到同一个查询,结果相差较大

4.3 Query-Sensitive Scoring

我们研究了如何高效的利用PageRank Vectors来提高ranking precision
对于每个方法采取Top10个结果,并组织5个志愿者人工判定,结果表明topic-sensitive PageRank方法的结果比原有的PageRank方法好很多

4.4 Context-Sensitive Scoring

通过query term的上下文来决定使用的topic PageRank vector
基于context的查询方法有更好的返回结果,返回内容大都跟query term的具体意义相关

未来计划

提高改进页面和话题之间权重得分的计算方法,分别在独立的或者同IR评分结合的两个角度进行评价

论文--Topic-Sensitive PageRank的更多相关文章

  1. PageRank算法--从原理到实现

    本文将介绍PageRank算法的相关内容,具体如下: 1.算法来源 2.算法原理 3.算法证明 4.PR值计算方法 4.1 幂迭代法 4.2 特征值法 4.3 代数法 5.算法实现 5.1 基于迭代法 ...

  2. 论文解读(PPNP)《Predict then Propagate: Graph Neural Networks meet Personalized PageRank》

    论文信息 论文标题:Predict then Propagate: Graph Neural Networks meet Personalized PageRank论文作者:Johannes Gast ...

  3. 论文《Entity Linking with Effective Acronym Expansion, Instance Selection and Topic Modeling》

    Entity Linking with Effective Acronym Expansion, Instance Selection and Topic Modeling 一.主要贡献 1. pro ...

  4. 张洋:浅析PageRank算法

    本文引自http://blog.jobbole.com/23286/ 很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的概念.前几天趁团队outing的机会,在动车上看 ...

  5. 【转】基于LDA的Topic Model变形

    转载自wentingtu 基于LDA的Topic Model变形最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人.我主要关注了下面这位大牛和他的学生:David M. B ...

  6. 主题:PageRank解释

    转自:http://www.iteye.com/topic/95079 PageRank解释 通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算,PageRank 能够对网页的重 ...

  7. PageRank与社交网络模型评估

    SNS社交网络在近几年流行起来,并呈现出火爆的增长趋势.在仿制国外Facebook.twitter等成功先例的基础上,国内的人人网.新浪微博等一系列社交网络正风生水起. 这些社交网站表面上看起来十分普 ...

  8. 浅析PageRank算法

    很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的概念.前几天趁团队outing的机会,在动车上看了一些相关的资料(PS:在动车上看看书真是一种享受),趁热打铁,将所看 ...

  9. PageRank算法第一篇

    摘要by crazyhacking: 一 搜索引擎的核心问题就是3个:1.建立资料库,通过爬虫系统实现:2.建立一种数据结构,可以根据关键词找到含有这个词的页面.通过索引系统(倒排索引)实现.3排序系 ...

随机推荐

  1. ubuntu下安装intel realsense驱动

    在安装之前一定要确保系统是ubuntu 14.04.3 64位! 由于一开始安装的是32位系统,导致在升级内核版本到4.4时各种问题,最终靠重装系统解决. 因为intel给出的测试代码均是在64位14 ...

  2. 【转】Shell编程基础篇-上

    [转]Shell编程基础篇-上 1.1 前言 1.1.1 为什么学Shell Shell脚本语言是实现Linux/UNIX系统管理及自动化运维所必备的重要工具, Linux/UNIX系统的底层及基础应 ...

  3. windows下caffe GPU版本配置

    由于项目需要,所以在自己本子上配置了一下windows下GPU版本的caffe; 硬件:  win10    ;      gtx1070独显(计算能力6.1): 安装软件:     cudnn-8. ...

  4. caffe中 softmax 函数的前向传播和反向传播

    1.前向传播: template <typename Dtype> void SoftmaxLayer<Dtype>::Forward_cpu(const vector< ...

  5. 高级 Java 必须突破的 10 个知识点!

    1.Java基础技术体系.JVM内存分配.垃圾回收.类装载机制.性能优化.反射机制.多线程.网络编程.常用数据结构和相关算法. 2.对面向对象的软件开发思想有清晰的认识.熟悉掌握常用的设计模式. 3. ...

  6. jenkins cobertura单元测试

    1.1      Maven 工程 pom.xml 修改 1.2      Build添加插件目标 此时构建项目,会在项目 targer/site/cobertura 目录中生成 html 与 xml ...

  7. Android OAuth认证

    OAuth认证 为了安全地访问在线服务,用户需要在服务上进行身份验证,即要提供他们的身份的证明.对于一个要访问第三方服务的程序来说,安全问题甚至更复杂.不仅仅是用户需要在访问服务前要进行身份验证,而且 ...

  8. 解决Linux安装 VMware tools 工具的方法

    一:启动linux服务器,并用远程登录工具访问linux服务器 1:启动系统 2:用服务器控制台   :查看点ip地址 3:用客户端 连接服务器 二:挂起 vm虚拟机的 tools 安装光盘 三:开始 ...

  9. 设计模式【转自JackFrost的博客】

    首先,感谢作者对知识的分享 使用设计模式是为了可重用代码.让代码更容易被他人理解.保证代码可靠性.设计模式使代码编制真正工程化,是软件工程的基石脉络,如同大厦的结构一样. 文章结构:1.单一职责原则( ...

  10. centos7 下安装配置python3.6

    一.首先,官网下载python3的所需版本. wget https://www.python.org/ftp/python/3.6.0/Python-3.6.0.tgz 二.然后,解压缩文件> ...