题目 你有10亿个url,每个url对应一个非常大的网页.你怎么检测重复的网页? 解答 网页大,数量多,要把它们载入内存是不现实的. 因此我们需要一个更简短的方式来表示这些网页.而hash表正是干这事的. 我们将网页内容做哈希,而不是url,这里不同url可能对应相同的网页内容. 将每个网页转换为一个哈希值后,我们就得到了10亿个哈希值, 很明显,两两对比也是非常耗时的O(n2 ).因此我们需要使用其它高效的方法. 根据以上分析,我们可以推出满足条件的以下算法: 遍历网页,并计算每个网页的哈希值…