主要目的:

在网络信息检索中,对每个文档的重要性作出评价。

Basic Idea:

如果有许多网页链接到某一个网页,那么这个网页比较重要。

如果某个网页被一个权重较大的网页链接,那么这个网页比较重要。

随机游走模型:

过程:1.在所有网页中,随机选择一个网页作为游走的开端。

2.然后在当前网页上的超链接中,随机选择一个超链接跳转到下一个网页。

3.大量重复1.2的过程。

重要度计算方法:

Pr(pi|p1)表示从编号为1的网页跳转到编号为i的网页的概率,其计算方式为 Pr(Pi|P1) = 1/m ,当编号为1的这个网页上有到i的连接时,否则该值为0。m表示编号为1的网页中的连接总数。

在Page Rank中,我们最终想要得到的是就是w 这个向量,在计算过程中,可以采用迭代的方法:刚开始,所有网页被访问的概率是一样的,所以w=(1,1,...,1)T

Iterate: wk = Bwk-1   直到我们可以认为 w= wk-1

随机游走模型的一个问题:

Solution:

为了解决这个问题,我们引入一个阻尼系数d,假设用户在随机游走模型中,在准备浏览下一个网页的过程中,有概率为d在当前网页选择一个超链接,也有概率为1-d的可能在地址栏键入一个新网址。由此,权重计算公式更新为:

如何排序?

用户输入一个query,搜索引擎首先计算文档的相关度和重要度,将这两个值乘以相应的参数再相加,选取top-n呈现给用户。

Topic Sensetive Page Rank

Basic Idea:

用户在随机选择一个网页进行访问时,一般是选取与当前主题(topic)相同的网页。

Method:

在计算网页的重要度时,需要计算其在每一个主题上的重要度pi,用户输入一个query时,用分类器计算这个query在每个主题上的概率wi,最后计算R(P,Q)=w1p1+w2p2+..+wnpn

Basic PageRank (in matrix form)

在Topic Sensetive Page Rank 中,假设有主题分类Ci,Tj表示Ci的一个子集

下面是p的初始值,若i页面属于主题分类Ci,那么vji = 1/(Tj),否则为0。

    以上式子是根据用户只会向相同主题页面跳转的规律得来的。

v代替p带入到Basic PageRank的公式中,需要注意的是,对于每一个主题,都需要计算Rank的值

那么,得到每一个页面的每一个Rank值之后,计算每一个页面的R(P,Q)=w1p1+w2p2+..+wnpn,其中wi表示query属于i分类的概率,而Pi表示该页面在i分类上的rank值。

[IR课程笔记]Page Rank的更多相关文章

  1. [IR课程笔记]Hyperlink-Induced Topic Search(HITS)

    两个假设 1. 好的hub pages: 好的对某个主题的hub pages 链接许多好的这个主题的authoritative pages. 2. 好的authoritative pages: 好的对 ...

  2. [IR课程笔记]向量空间模型(Vector Space Model)

    VSM思想 把文档表示成R|v|上的向量,从而可以计算文档与文档之间的相似度(根据欧氏距离或者余弦夹角) 那么,如何将文档将文档表示为向量呢? 首先,需要选取基向量/dimensions,基向量须是线 ...

  3. [IR课程笔记]Web search

    一.  搜索引擎 组成部分: 1. 网络爬虫(web crawler) 2. 索引系统(indexing system) 3. 搜索系统 (searching system) consideratio ...

  4. [IR课程笔记]Query Refinement and Relevance Feedback

    相关反馈的两种类型: “真实”的相关反馈: 1. 系统返回结果 2. 用户提供一些反馈 3. 系统根据这些反馈,返回一些不同的,更好的结果 “假定”的相关反馈 1. 系统得到结果但是并不返回结果 2. ...

  5. [IR课程笔记]概率检索模型

    几个符号意义: R:相关文档集 NR:不相关文档集 q:用户查询 dj:文档j 1/0风险情况 PRP(probability ranking principle):概率排序原理,利用概率模型来估计每 ...

  6. [IR课程笔记]统计语言模型

    Basic idea 1.一个文档(document)只有一个主题(topic) 2.主题指的是这个主题下文档中词语是如何出现的 3.在某一主题下文档中经常出现的词语,这个词语在这个主题中也是经常出现 ...

  7. [北航矩阵理论A]课程笔记

    [北航矩阵理论A]课程笔记 一.特征值 特征根相关: 设任一方阵 \(A = (a_{ij})_{n\times n} \in C^{n\times n}\) 特征多项式 \(T(\lambda)=| ...

  8. CS231n课程笔记翻译1:Python Numpy教程

    译者注:本文智能单元首发,翻译自斯坦福CS231n课程笔记Python Numpy Tutorial,由课程教师Andrej Karpathy授权进行翻译.本篇教程由杜客翻译完成,Flood Sung ...

  9. vue—你必须知道的 js数据类型 前端学习 CSS 居中 事件委托和this 让js调试更简单—console AMD && CMD 模式识别课程笔记(一) web攻击 web安全之XSS JSONP && CORS css 定位 react小结

    vue—你必须知道的   目录 更多总结 猛戳这里 属性与方法 语法 计算属性 特殊属性 vue 样式绑定 vue事件处理器 表单控件绑定 父子组件通信 过渡效果 vue经验总结 javascript ...

随机推荐

  1. TStringList 善用 value['names'] 即使value 是带=号的值都没有关系呵呵 ,我靠 强,以后就用这个了,key=value首选

    aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAA4YAAAHiCAIAAAA760U/AAAgAElEQVR4nOy9Z5QUV57oWe/j7tk9u2 ...

  2. 洛谷——P1238 走迷宫

    P1238 走迷宫 题目描述 有一个m*n格的迷宫(表示有m行.n列),其中有可走的也有不可走的,如果用1表示可以走,0表示不可以走,文件读入这m*n个数据和起始点.结束点(起始点和结束点都是用两个数 ...

  3. Play框架的用户验证。

    最近刚刚参与一个基于Play框架的管理平台的升级工作,其中涉及到了用户的验证工作.第一次接触play框架,直接看已有代码,有点晕.因此,自己实现了一个简单的用户验证功能. 首先,新建一个User类,包 ...

  4. iOS -- SKViedoNode类

    SKViedoNode类 继承自 SKNode:UIResponder:NSObject 符合 NSCoding(SKNode)NSCopying(SKNode)NSObject(NSObject) ...

  5. Python基础语法01

    Python 标识符 在python里,标识符有字母.数字.下划线组成. 在python中,所有标识符可以包括英文.数字以及下划线(_),但不能以数字开头. python中的标识符是区分大小写的. 以 ...

  6. 怎样在ubuntu 系统上为 php 加上 redis 扩展

    近期一个项目.,想用redis 作为数据库,php是不待redis 扩展,必须安装,怎么安装呢?我在网上找的非常多资料发现都是预编译的.但都没成功.于是就找了第二种方法是不须要编译直接安装就能够了. ...

  7. 【IE】IE对line-height 失效的的解决方案

    微软的IE9 + Extjs3.1 确实头疼.在使用了line-height:20px 的Tree的样式,可是一直没有生效, 以下给出3中解决方式: 方案1.加padding-top: <div ...

  8. vue-router钩子beforeRouteEnter函数获取到this实例

    官方文档: const Foo = { template: `...`, beforeRouteEnter (to, from, next) { // 在渲染该组件的对应路由被 confirm 前调用 ...

  9. 第十六周 项目三-max带来的冲突

    分析以下程序出现的编译错误,给出解决的方案. #include<iostream> using namespace std; //定义函数模板 template<class T> ...

  10. CSS3中的动画效果-------Day72

    还记得么,在前面也曾实现过"仅仅用css让div动起来",还记得当时是怎么实现的么,是的,transition,针对的也比較局限,仅仅有旋转角度啊,长宽啊之类的,所以说,与其说是动 ...