[统计]Causal Inference 原文传送门 过程 一.Prediction 和 causation 的区别 现实中遇到的很多问题实际上是因果问题,而不是预测. 因果问题分为两种:一种是 causal inference,比如给定两个变量 X.Y,希望找到一个衡量它们之间因果关系的参数 theta:另一种是 causal discovery,即给定一组变量,找到他们之间的因果关系.对于后面…
上一篇总结了潜在语义分析(Latent Semantic Analysis, LSA),LSA主要使用了线性代数中奇异值分解的方法,但是并没有严格的概率推导,由于文本文档的维度往往很高,如果在主题聚类中单纯的使用奇异值分解计算复杂度会很高,使用概率推导可以使用一些优化迭代算法来求解. Thomas Hofmann 于1998年根据似然原理定义了生成模型并由此提出了概率潜在语义分析模型(Probabilistic Latent Semantic Analysis),简称PLSA. PLSA属于概率… What is Regression Analysis? Why do we use Regression Analysis? What are the types of Regressions? Linear Regression Logistic Regression Polynomial Regression Stepwise Regre…
[Topic Model]主题模型之概率潜在语义分析(Probabilistic Latent Semantic Analysis) 感觉LDA在实践中的优势其实不大,学好pLSA才是重点 阅读笔记 PLSI 2008年的时候,pLSA已经被新兴的LDA掩盖了. LDA是pLSA的generalization:LDA的hyperparameter设为特定值的时候,就specialize成pLSA了. 从工程应用价值的角度看,这个数学方法的generalization,允许我们用一个训练好的模型解…
流行病学研究常见的分析就是相关性分析了. 相关性分析某种程度上可以为我们提供一些研究思路,比如缺乏元素A与某种癌症相关,那么我们可以通过补充元素A来减少患癌率.这个结论的大前提是缺乏元素A会导致这种癌症,也就是说元素A和癌症有因果关系. 但实际上,元素A和癌症有相关性,不代表他们之间就有因果关系.也有可能是患癌症的人同时有其他的并发症,这种并发症会导致元素A缺乏. 再比如,研究表明,大胸女生与不爱运动相关.那么,到底是因为胸大的女性不爱运动,还是因为不爱运动导致胸大(肥胖). 如果不做其他分析,…
