一.简单总结 其实相似度计算方法也是老生常谈,比如常用的有: 1.常规方法 a.编辑距离 b.Jaccard c.余弦距离 d.曼哈顿距离 e.欧氏距离 f.皮尔逊相关系数 2.语义方法 a.LSA b.Doc2Vec c.DSSM ...... 二.利用熵计算相似度 关于什么是熵.相对熵.交叉熵的概念,网上有很多,这里就不总结了.本篇主要关注工程方面,即怎么用代码实现,参考的论文来自<Content-based relevance estimation on the web using int…