在爬虫系统中数据的流量相当大,要处理的数据内容不仅包括爬虫系统的各种数据结构空间,而且包括从外部节点中得到的各种数据,比如HTTP请求,HTML页面,ROBOT.TXT等等.如果对这些内容处理不当,那么不仅造成空间的冗余浪费,使爬虫程序效率降低,而且还可能会使系统崩溃.所以,要有合适的空间分配策略.空间分配与管理方案.在内存中使用缓冲空间,以快速的得到.存储数据.统一各种请求的结构,应该合理利用并在每次用完后进行回收.比如,ROBOT.TXT文件,HTTP请求头及相应的应答.这种方式,在站点数目…