什么是Spark

由于大多数的spark计算是基于内存的的天性，spark应用的瓶颈一般受制于集群的CPU，网络带宽，内存。大部分情况下，如果内存适合当前数据量的计算，那么瓶颈往往就是带宽，但是有时候我们也需要进行一些调优比如序列化，来减少内存的使用。调优系列目前主要会更新两个主题：数据序列化，这点对于网络带宽调优和减少内存是至关重要的；另一种是内存调优。当然，也会简单介绍一些其他的调优点。本文只讲数据的序列化。在任何分布式应用中序列化都扮演者一个重要的角色。序列化过程非常慢的或者消耗大量字节的序列化格式，都是会巨大的减缓计算速度…

什么是Spark

Spark调优——序列化方式调优