如何对url去重? 将访问url保存到数据库中,效率低,最简单 将url保存到set中,查询速度快,但当url达到1亿多条时候,占用太多内存空间 将url经过md5等方法哈希后保存到set中 用bitmap,讲访问过的url通过hash函数映射到某一位,很容易出现冲突,更能压缩 bloomfilter方法对bitmap进行改进,多重hash函数,避免冲突 那,如何实现bloomfilter方式url去重? #!/usr/bin/python3 __author__ = 'beimenchuixu…