摘自:http://www.programcreek.com/java-api-examples/index.php?source_dir=textmining-master/src/com/gta/simhash/SimHash.java package com.gta.simhash; public class Test { public static void main(String[] args) { // TODO Auto-generated method stub String s…
项目中需要算2个字符串的相似度,是根据余弦相似性算的,下面具体介绍一下: 余弦相似度计算 余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小.余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性". 我们知道,对于两个向量,如果他们之间的夹角越小,那么我们认为这两个向量是越相似的.余弦相似性就是利用了这个理论思想.它通过计算两个向量的夹角的余弦值来衡量向量之间的相似度值.余弦相似性推导公式如下: public class Cosine {…