Spark Streaming需要提升的地方同样很多,比如1.2之前版本driver挂掉可能会丢失数据。 眼下大数据领域最热门的词汇之一便是流计算了,其中最耀眼的项目无疑是来自Spark社区的Spark Streaming项目,其从一诞生就受到广泛关注并迅速发展。 对于流计算而言,毫无疑问最核心的特点是它的低时延能力,这主要是来自对数据不落磁盘就进行计算的内部机制,但这也带来了数据可靠性的问题,即有节点失效或者网络异常时,如何在节点间进行合适的协商来进行重传。更进一步的,若发生计划外的数据重传,怎么能保证没有产生重…