算法简介 SimHash也即相似hash,是一类特殊的信息指纹,常用来比较文章的相似度,与传统hash相比,传统hash只负责将原始内容尽量随机的映射为一个特征值,并保证相同的内容一定具有相同的特征值.而且如果两个hash值是相等的,则说明原始数据在一定概率下也是相等的.但通过传统hash来判断文章的内容是否相似是非常困难的,原因在于传统hash只唯一标明了其特殊性,并不能作为相似度比较的依据. SimHash最初是由Google使用,其值不但提供了原始值是否相等这一信息,还能通过该值计算出内容