[IR] Probabilistic Model
If user has told us some relevant and some irrelevant documents, then we can proceed to build a probabilistic classifier, such as a Naive Bayes model.
Can we use probabilities to quantify our uncertainties?
Ranking method:
Rank by probability of relevance of the document w.r.t. information need.
P(relevant | document i, query)
Bayes’ Optimal Decision Rule: x is relevant(相关的)iff p(R|x) > p(NR|x)
C - cost of retrieval of relevant document
C’- cost of retrieval of non-relevant document
C ⋅ p(R | d) + C ′ ⋅ (1− p(R | d)) ≤ C ⋅ p(R | d′ ) + C ′ ⋅ (1− p(R | d′ ))
for all d’ not yet retrieved, then d is the next document to be retrieved
- How do we compute all those probabilisties?
- 二值独立模型 - Binary Independence Model
(q位置没有变,odds 优势率)
分母约去。
Query相关的话,文档Vecdor如此的概率是多少?需要估计。
思考:针对一个Query,某单词是否该出现在文档中呢?
假设 (重要):
pi = p ( xi = 1 | R , q );
ri = p ( xi = 1 | NR , q );
(去掉xi = 0后,乘的变多了,多了xi =1, qi =1的部分。在前一个连乘中乘以倒数,达到平衡。)
两个常量:
query能获得有效返回的概率。
every query 与vocabulary中的each word的相关的概率。
一个变量:
Retrieval Status Value
So, how do we compute ci ’s from our data ?
For each term i look at this table of document counts:
(Term与doc的关系:出现但不一定相关;相关但不一定出现,比如computer与IBM)
pi = s / (S-s)
ri = (n-s) / (N-n-S+s)
Add 1⁄2 Smoothing
结论:一篇新文档出现,遂统计every Term与该doc的关系,得到Ci。
- Okapi BM25: 一个非二值的模型 (略)
[IR] Probabilistic Model的更多相关文章
- Intro to Probabilistic Model
概率论复习 概率(Probability) 频率学派(Frequentist):由大量试验得到的期望频率(致命缺陷:有些事情无法大量试验,例如一封邮件是垃圾邮件的概率,雷达探测的物体是一枚导弹的概率) ...
- 本人AI知识体系导航 - AI menu
Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯 徐亦达老板 Dirichlet Process 学习 ...
- [IR] Information Extraction
阶段性总结 Boolean retrieval 单词搜索 [Qword1 and Qword2] O(x+y) [Qword1 and Qword2]- 改进: Gallo ...
- PGM:概率图模型Graphical Model
http://blog.csdn.net/pipisorry/article/details/51461878 概率图模型Graphical Models简介 完全通过代数计算来对更加复杂的模型进行建 ...
- [IR] Word Embeddings
From: https://www.youtube.com/watch?v=pw187aaz49o Ref: http://blog.csdn.net/abcjennifer/article/deta ...
- 深度学习基础 Probabilistic Graphical Models | Statistical and Algorithmic Foundations of Deep Learning
目录 Probabilistic Graphical Models Statistical and Algorithmic Foundations of Deep Learning 01 An ove ...
- FAQ: Machine Learning: What and How
What: 就是将统计学算法作为理论,计算机作为工具,解决问题.statistic Algorithm. How: 如何成为菜鸟一枚? http://www.quora.com/How-can-a-b ...
- ### Paper about Event Detection
Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1 ...
- [ML] I'm back for Machine Learning
Hi, Long time no see. Briefly, I plan to step into this new area, data analysis. In the past few yea ...
随机推荐
- textViewDidChange: crashes in iOS 7
What's happening is that you're typing what is referred to as multistage text input, i.e. the input ...
- Activiti 部署流程定义及相关的表(classpath部署、zip部署)
package com.mycom.processDefinition; import org.activiti.engine.ProcessEngine; import org.activiti.e ...
- 配置editplus,讓其支持代碼自動格式化功能.
使用editplus已經好多年了,累積了不少的東西,想換IDE比較麻煩,所以就研究了一下用editplus搭配gofmt.exe配置go語言代碼自動格式化的功能.還好功夫不負有心人,終於被我搞懂了,不 ...
- rocketmq总结
1:角色关系 2:顺序消息 消费消息的顺序要同収送消息的顺序一致,在 RocketMQ 中,主要挃的是尿部顺序,即一类消息为满足顺序性,必须 Producer 单线程顺序収送,丏収送到同一个队列,返样 ...
- C++ 记事本: 变量
C++ 变量也许和其他语言的变量没有什么差别.就是用来存储一些可能会变值的容器. 当然 C++ 变量里又分为 原子类型 的(int , char ,bool 等等),复合类型 的(struct ,cl ...
- javaweb 学习总结
http://www.cnblogs.com/xdp-gacl/category/574705.html 这个总结很好,以前看书没搞懂的,这里基本上都清楚了,赞一个,推荐. Servlet与普通Jav ...
- Android酷炫实用的开源框架——UI框架(转)
转载别人整理好的文章,列出了很多炫酷的UI开源设计 原文地址:http://www.androidchina.net/1992.html 1.Side-Menu.Android分类侧滑菜单,Yalan ...
- 进入做Mvc项目的时候 返现某个文件夹下面css js png等静态文件都访问不了
原来是我在该文件夹下面添加了一个web.config 里面 静止了所有的文件 直接访问 <system.web> <httpHandlers> <add ...
- android国际化(多语言)
2013-03-18 23:45 13390人阅读 评论(0) 收藏 举报 1. 很大程度上,为什么 ...
- 关于 c# 操作 world
把数据存放在datatable 中并循环取出来数据然后再保存在world中 protected void ExportToWord(DataSet Ads) { try { Object Nothin ...