一个执着于技术的公众号 日常工作中需要对日志文件进行分析,当日志文件过大时,Linux中使用vim.cat.grep.awk等这些工具对大文件日志进行分析将会成为梦魇,具体表现在: 执行速度缓慢,文件内容需要加载到内存中,涉及大量的磁盘读: 耗费资源过多,一个4G空间的日志文件需要至少4G的内存,更大的呢? 内容难以复用,分析过滤文件时会用管道对输出文件进行处理,大文件下难以复用: 文件传输困难,大文件需要传输给其他人进行分析,文件太大,全量传输带宽耗费大. 1 查阅大文件之痛 大数据离线处理框