与服务器一起的日子

  • mysql
  • linux
  • 高可用
  • nginx
spark
spark

什么是Spark

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。 首先,Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。 Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用…

2017年12月25日 0条评论 605点热度 0人点赞 jhin 阅读全文
spark

Spark调优——序列化方式调优

由于大多数的spark计算是基于内存的的天性,spark应用的瓶颈一般受制于集群的CPU,网络带宽,内存。大部分情况下,如果内存适合当前数据量的计算,那么瓶颈往往就是带宽,但是有时候我们也需要进行一些调优比如序列化,来减少内存的使用。调优系列目前主要会更新两个主题:数据序列化,这点对于网络带宽调优和减少内存是至关重要的;另一种是内存调优。当然,也会简单介绍一些其他的调优点。本文只讲数据的序列化。 在任何分布式应用中序列化都扮演者一个重要的角色。序列化过程非常慢的或者消耗大量字节的序列化格式,都是会巨大的减缓计算速度…

2017年11月26日 0条评论 507点热度 0人点赞 jhin 阅读全文

COPYRIGHT © 2024 与服务器一起的日子. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang