分类 分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行.由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫.这些爬虫可能分布在同一个局域网之中,或者分散在不同的地理位置. 根据爬虫的分散程度不同,可以把分布式爬行器分成以下两大类: 1.基于局域网分布式网络爬虫:这种分布式爬行器的所有爬虫在同一个局域网里运行,通过高速的网络连接相互通信.这些爬虫通过同一个网络…