spark是迭代式的内存计算框架,具有很好的高可用性.sparkStreaming作为其模块之一,常被用于进行实时的流式计算.实时的流式处理系统必须是7*24运行的,同时可以从各种各样的系统错误中恢复. 在实际使用中,容错和数据无丢失显得尤为重要.最近看了官网和一些博文,整理了一下对Spark Streaming的容错和数据无丢失机制. checkPoint机制可保证其容错性.spark中的WAL用来改进恢复机制,保证数据的无丢失. checkPoint机制介绍 Spark Streaming需…