关于Robots协议 Robots协议也称为爬虫协议,是网络爬虫排除标准(Robots Exclusion Protocol),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取.因为我们如果无限制的使用爬虫爬取信息的话,且不说技术上能否突破某些网站上的发爬虫措施,如果毫无限制的进行爬取,再加上个分布式和多线程,则有可能导致把访问网站跑崩掉(虽然这种概率很小):但是这也说明了我们需要对我们的爬虫进行规范化处理,只能爬取我们需要的别人愿意给的数据,这样就不会违反一些法律. 我们可以在任何一个网…