[IR] Concept Search and PLSA】的更多相关文章

[Topic Model]主题模型之概率潜在语义分析(Probabilistic Latent Semantic Analysis) 感觉LDA在实践中的优势其实不大,学好pLSA才是重点 阅读笔记 PLSI 2008年的时候,pLSA已经被新兴的LDA掩盖了. LDA是pLSA的generalization:LDA的hyperparameter设为特定值的时候,就specialize成pLSA了. 从工程应用价值的角度看,这个数学方法的generalization,允许我们用一个训练好的模型解…
重要的是通过实践更深入地了解贝叶斯思想,先浅浅地了解下LDA. From: http://blog.csdn.net/huagong_adu/article/details/7937616/ 传统方法的缺陷: 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的. 在主题模型中,主题表示一个概念.一个方面,表现为一系列相关的单词,是这些单词的条件概率.形象来说,主题…
[Topic Model]主题模型之概率潜在语义分析(Probabilistic Latent Semantic Analysis) 感觉LDA在实践中的优势其实不大,学好pLSA才是重点 阅读笔记 PLSI 2008年的时候,pLSA已经被新兴的LDA掩盖了. LDA是pLSA的generalization:LDA的hyperparameter设为特定值的时候,就specialize成pLSA了. 从工程应用价值的角度看,这个数学方法的generalization,允许我们用一个训练好的模型解…
基于术语关系的贝叶斯网络信息检索模型扩展研究 LSI 阅读笔记 背景知识 提出一种改进的共现频率法,利用该方法挖掘了索引术语之间的相关关系,将这种相关关系引入信念网络模型,提出了一个具有两层术语节点的扩展信念网络模型,利用实验验证了模型的性能. 将查询术语同义词作为查询证据引入信念网络模型,提出了组合同义词证据的信念网络检索模型,实验验证了模型性能. 利用同义词方法挖掘了简单贝叶斯网络检索模型(SBN 模型)中术语之间的关系,提出了利用这种关系所产生的扩展 SBN 模型,并验证了模型的性能. 利…
重要的是通过实践更深入地了解贝叶斯思想,先浅浅地了解下LDA. 相关数学知识 LDA-math-MCMC 和 Gibbs Sampling LDA-math - 认识 Beta/Dirichlet 分布 LDA-math - 神奇的 Gamma 函数 LDA学习心得(一)——Gamma函数与Beta/Dirichlet分布 LDA学习心得(二)——文本建模 非常好!https://arxiv.org/pdf/1908.03142.pdf[LDA精讲] From: http://blog.csdn…
基于术语关系的贝叶斯网络信息检索模型扩展研究 LSI 阅读笔记 背景知识 提出一种改进的共现频率法,利用该方法挖掘了索引术语之间的相关关系,将这种相关关系引入信念网络模型,提出了一个具有两层术语节点的扩展信念网络模型,利用实验验证了模型的性能. 将查询术语同义词作为查询证据引入信念网络模型,提出了组合同义词证据的信念网络检索模型,实验验证了模型性能. 利用同义词方法挖掘了简单贝叶斯网络检索模型(SBN 模型)中术语之间的关系,提出了利用这种关系所产生的扩展 SBN 模型,并验证了模型的性能. 利…
Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯   徐亦达老板 Dirichlet Process 学习目标:Dirichlet Process, HDP, HDP-HMM, IBP, CRM Alex Kendall Geometry and Uncertainty in Deep Learning for Computer Vision 语义分割 colah's blog Feature Visu…
先明确一些潜规则: 机器学习是个collection or set of models,一切实践性强的模型都会被归纳到这个领域,没有严格的定义,’有用‘可能就是唯一的共性. 机器学习大概分为三个领域: 一般的机器学习模型:没有掺杂太多统计概念,例如决策树,KNN聚类,感知机等. 统计机器学习模型:依赖统计理论,主要是贝叶斯统计,例如SVM,naive bayesian,贝叶斯线性回归,高斯过程等. 神经网络模型:可以简单的理解为感知机的扩展,因为扩展的太猛,单独成立门派咯. 如此定义,有助于菜鸡…
<Deep Learning> Ian Goodfellow Yoshua Bengio Aaron Courvill 关于此书Part One重难点的个人阅读笔记. 2.7 Eigendecomposition we decompose a matrix into a set of eigenvectors and eigenvalues. 特征值与特征向量: 应用非常广泛: 图像处理中的PCA方法,选取特征值最高的k个特征向量来表示一个矩阵,从而达到降维分析+特征显示的方法, 还有图像压缩…
先明确一些潜规则: 机器学习是个collection or set of models,一切实践性强的模型都会被归纳到这个领域,没有严格的定义,’有用‘可能就是唯一的共性. 机器学习大概分为三个领域: 一般的机器学习模型:没有掺杂太多统计概念,例如决策树,KNN聚类,感知机等. 统计机器学习模型:依赖统计理论,主要是贝叶斯统计,例如SVM,naive bayesian,贝叶斯线性回归,高斯过程等. 神经网络模型:可以简单的理解为感知机的扩展,因为扩展的太猛,单独成立门派咯. 如此定义,有助于菜鸡…