前面的文章都是基于在单机操作,正常情况下,一台机器无论配置多么高,线程开得再多,也总会有一个上限,或者说成本过于巨大.因此,本文将提及分布式的爬虫,让爬虫的效率提高得更快. 构建分布式爬虫首先需要有多台机器,作者利用 VMware 安装了 2 台虚拟机,安装的教程请看 VMwareWorkstation下安装Linux.安装的 2台机器为 CentOS6.6 ,命名为 device1 .device2 ,master 为 device1 , 初始密码为 1111 . 安装好了后,用 Xshell