[IR] Probabilistic Model

If user has told us some relevant and some irrelevant documents, then we can proceed to build a probabilistic classifier, such as a Naive Bayes model.

Can we use probabilities to quantify our uncertainties?

Ranking method:

Rank by probability of relevance of the document w.r.t. information need.

P(relevant | document i, query)

Bayes’ Optimal Decision Rule: x is relevant（相关的）iff p(R|x) > p(NR|x)

C - cost of retrieval of relevant document

C’- cost of retrieval of non-relevant document

C ⋅ p(R | d) + C ′ ⋅ (1− p(R | d)) ≤ C ⋅ p(R | d′ ) + C ′ ⋅ (1− p(R | d′ ))

for all d’ not yet retrieved, then d is the next document to be retrieved

How do we compute all those probabilisties?

二值独立模型 - Binary Independence Model

(q位置没有变，odds 优势率)

分母约去。

Query相关的话，文档Vecdor如此的概率是多少？需要估计。

思考：针对一个Query，某单词是否该出现在文档中呢？

假设 (重要)：

p_i= p ( x_i = 1 | R , q );

r_i = p ( x_i = 1 | NR , q );

（去掉x_i = 0后，乘的变多了，多了x_i=1, q_i=1的部分。在前一个连乘中乘以倒数，达到平衡。）

两个常量：

　　query能获得有效返回的概率。

　　every query 与vocabulary中的each word的相关的概率。　

一个变量：

　　Retrieval Status Value

So, how do we compute c_i ’s from our data ?

For each term i look at this table of document counts:

(Term与doc的关系：出现但不一定相关；相关但不一定出现，比如computer与IBM)

p_i = s / (S-s)

r_i = (n-s) / (N-n-S+s)

Add 1⁄2 Smoothing

结论：一篇新文档出现，遂统计every Term与该doc的关系，得到C_i。

Okapi BM25: 一个非二值的模型 (略)

[IR] Probabilistic Model的更多相关文章

Intro to Probabilistic Model
概率论复习概率(Probability) 频率学派(Frequentist):由大量试验得到的期望频率(致命缺陷:有些事情无法大量试验,例如一封邮件是垃圾邮件的概率,雷达探测的物体是一枚导弹的概率) ...
本人AI知识体系导航 - AI menu
Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯徐亦达老板 Dirichlet Process 学习 ...
[IR] Information Extraction
阶段性总结 Boolean retrieval 单词搜索 [Qword1 and Qword2] O(x+y) [Qword1 and Qword2]- 改进: Gallo ...
PGM：概率图模型Graphical Model
http://blog.csdn.net/pipisorry/article/details/51461878 概率图模型Graphical Models简介完全通过代数计算来对更加复杂的模型进行建 ...
[IR] Word Embeddings
From: https://www.youtube.com/watch?v=pw187aaz49o Ref: http://blog.csdn.net/abcjennifer/article/deta ...
深度学习基础 Probabilistic Graphical Models | Statistical and Algorithmic Foundations of Deep Learning
目录 Probabilistic Graphical Models Statistical and Algorithmic Foundations of Deep Learning 01 An ove ...
FAQ: Machine Learning: What and How
What: 就是将统计学算法作为理论,计算机作为工具,解决问题.statistic Algorithm. How: 如何成为菜鸟一枚? http://www.quora.com/How-can-a-b ...
### Paper about Event Detection
Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1 ...
[ML] I'm back for Machine Learning
Hi, Long time no see. Briefly, I plan to step into this new area, data analysis. In the past few yea ...

随机推荐

python判断文件和目录是否存在
#Python的os.path模块提供了 isdir() 和 isfile()函数,请导入该模块,并调用函数判断指定的目录和文件是否存在. import os print os.path.isdir( ...
apache url rewrite 的RewriteRule参数详解
apache url rewrite 的RewriteRule参数详解我们经常会在apache那边对一些url进行一些重写操作,那么就会涉及到很多的重写策略的选择,比如重定向的方式,参数的处理,规则 ...
AndroidStudio使用第三方jar包报错(Error: duplicate files during packaging of APK)
http://www.kwstu.com/ArticleView/android_201410252131196692 错误描述: Error: duplicate files during pack ...
React Native入门遇到的一些问题
本文示例参考自<React Native第一课> React Native官方文档中文版(含最新Android内容) 这里只大概记录下我的操作步骤和遇到的问题,一定要牢记下面这条: 如果你 ...
你的项目真的需要Session吗？
在web开发中,Session这个东西一直都很重要,至少伴随我10年之久, 前一段时间发生一个性能问题,因为Redis session 问题,后来想想其实我的项目session 是不需要的. 先看看 ...
Revit如何修改三维视图背景色
Revit中默认的三维视图背景色为白色,有时候为了让现实效果更佳逼真,需要将三维视图背景色设置为天空色,只需在三维视图属性中打开"图形显示选项"即可对三维视图背景色进行设置.
YChaos生成混沌图像
YChaos是一款通过数学公式生成混沌图像的软件,展示混沌之美,数学之美.软件中定义一套简易的脚本语言,用于描述数学表达式.使用时需要先要将数学表达式写成该脚本的形式,解析脚本代码以生成相应的图形与图 ...
Django 源码小剖: 更高效的 URL 调度器(URL dispatcher)
效率问题 django 内部的 url 调度机制说白了就是给一张有关匹配信息的表, 这张表中有着 url -> action 的映射, 当请求到来的时候, 一个一个(遍历)去匹配. 中, 则调用 ...
WebRTC is for Losers:WebRTC是输家
该文章是引述,仅代表作者Dave Michels观点 WebRTC is for Losers WebRTC technology has fallen short on many of its pr ...
[SQL SERVER 2005]数据库差异备份及还原
因为之前遇到还原差异备份,最开始遇到SQLServer报错:”无法还原日志备份或差异备份,因为没有文件可用于前滚“.查阅很多资料后,终于得到解决.收集整理成这篇随笔. 问题原因:出现这种错误绝大多数是 ...

[IR] Probabilistic Model

Ranking method:

[IR] Probabilistic Model的更多相关文章

随机推荐

热门专题