问题背景 公司有个简单粗暴的日志服务,它部署在多台机器实例上,收集的日志记录在每台机器本地硬盘,写一个小时自动切换日志文件,硬盘空间写满了自动回卷,大约可以保存两三天的历史数据.为什么说它粗暴呢?原来它不提供任何查询日志的接口,想要获取日志唯一的办法就是直接查日志文件: ssh 执行 grep 得到结果 scp 将结果复制到本地 最后将这些文件拼接在一起作为最终结果.有个前辈写过一个脚本,不过比较简单,基本就是一个 while 循环里串行查询每台实例.获取一次日志需要将近 1 个小时,严重拖慢了