定义 在数据分析场景中,我们可能会遇到这样的问题.例如,我们要做一个推荐系统,如果我们用批处理任务去做,一天或者一小时的推荐频次明显延迟太大.如果用流处理任务,虽然延迟的问题解决了,然而只用实时数据而没有历史数据,那么准确性就无法保证.因此需要结合批处理的历史数据和流处理的实时数据进行处理,既能保证准确性,又能保证实时性.再比如反作弊系统,实时识别作弊用户的时候同时需要用到用户的历史行为. 针对上述问题,Storm 的作者 Nathan Marz 提出了 Lambda 架构.根据维基百科的定义,…