最近在使用hadoop做apache日志分析,发现测试数据没问题,但数据一多就出问题,报 java.lang.StackOverflowError错误,最后定位为正则表达式栈溢出,发现某些行的日志数据长度超过了800,所以就会报这个错误, 最后的解决方案是把这一小部分数据舍去掉. 添加如下代码 String log = value.toString(); if(log.length()>=800) return; 在map阶段读入每一行的时候先判断这一行的长度,如果长度超过了800就不对这一行进…