“LDA(Latent Dirichlet Allocation)模型,模型主要解决文档处理领域的问题,比如文章主题分类.文章检测.相似度分析.文本分段和文档检索等问题.LDA主题模型是一个三层贝叶斯概率模型,包含词.主题.文档三层结构,文档到主题服从Dirichlet分布,主题到词服从多项式分布.它采用了词袋(Bag of Words)的方法,将每一篇文章视为一个词频向量,每一篇文档代表了一些主题所构成的概率分布,而每一个主题又代表了很多单词所构成的一个概率分布.利用LDA模型对用户参与的话题
利用GBDT模型构造新特征具体方法 数据挖掘入门与实战 公众号: datadw 实际问题中,可直接用于机器学**模型的特征往往并不多.能否从"混乱"的原始log中挖掘到有用的特征,将会决定机器学**模型效果的好坏.引用下面一句流行的话: 特征决定了所有算法效果的上限,而不同的算法只是离这个上限的距离不同而已. 本文中我将介绍Facebook最近发表的利用GBDT模型构造新特征的方法. (Xinran He et al. Practical Lessons from Predict