一.概述 MOD(取模)运算配合质数的特性,可以实现一种简单的哈希算法. 二.基于的定理 在理解如何实现mod哈希前应当了解一些数学的定理: 1.x mod y = z ,实际上是x除以y的余数y的意思: 2.假设 x / y = z ,即 x 是被除数,y 是除数,z 是商: 3.除法规定:除数不能为0,但是被除数可以: 4.mod运算与/规则是一致的,只不过最后的结果z,mod是余数: 5.质数是只能被0和自身整除的数: 三.算法 x mod y = z 如果理解用到的基本数学定理,那么这个
shingling算法用于计算两个文档的相似度,例如,用于网页去重.维基百科对w-shingling的定义如下: In natural language processing a w-shingling is a set of unique "shingles"—contiguous subsequences of tokens in a document —that can be used to gauge the similarity of two documents. The w