1.介绍 爬虫采集了大量的文本数据,如何进行去重?可以使用文本计算MD5,然后与已经抓取下来的MD5集合进行比较,但这种做法有个问题,文本稍有不同MD5值都会大相径庭, 无法处理文本相似问题.另一种方式是本文要介绍的SimHash,这是谷歌提出的一种局部敏感哈希算法,在吴军老师的<数学之美>里也有介绍,这种算法可以将文本降维成一个 数字,极大地减少了去重操作的计算量.SimHash算法主要分为以下几个步骤: 1.分词,并为每个词加上权重,代表这个词在这句话中的重要程度(可以考虑使用TF-IDF…