现在维护着一个新浪微博爬虫,爬取量已经5亿+,使用了Scrapyd部署分布式. Scrapyd运行时会输出日志到本地,导致日志文件会越来越大,这个其实就是Scrapy控制台的输出.但是这个日志其实有用的部分也就是最后那几百行而已,如果出错,去日志查看下出错信息就好了. 所以现在可以写一个脚本,来定时更新日志文件,将最后的100行保存下来就好了. Scrapyd默认的日志目录是在用户文件夹下的logs目录. 所以在这里我们指定dir=~/logs 新建bash脚本,内容如下: #!/bin/sh…