算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理: 2.可以考虑采用分而治之的思想,按照IP地址的Hash(IP) % 1024的值,把海量IP日志分别存储到1024个小文件中,这样,每个小文件最多包含4MB个IP地址: 这样的话,通过计算IP的Hash值,相同IP肯定会放到一个文件中,当然不同的IP的Hash值也可能相同,就存在一个小文件中. 3.对于每一个小文件,可以构建一个IP为key,出现的次数为value的Hash Map,同时记录…