Spark调优——序列化方式调优

由于大多数的spark计算是基于内存的的天性，spark应用的瓶颈一般受制于集群的CPU，网络带宽，内存。大部分情况下，如果内存适合当前数据量的计算，那么瓶颈往往就是带宽，但是有时候我们也需要进行一些调优比如序列化，来减少内存的使用。调优系列目前主要会更新两个主题：数据序列化，这点对于网络带宽调优和减少内存是至关重要的；另一种是内存调优。当然，也会简单介绍一些其他的调优点。本文只讲数据的序列化。在任何分布式应用中序列化都扮演者一个重要的角色。序列化过程非常慢的或者消耗大量字节的序列化格式，都是会巨大的减缓计算速度…

2017年11月26日 0条评论 508点热度 0人点赞 jhin 阅读全文

Spark Streaming需要提升的地方同样很多，比如1.2之前版本driver挂掉可能会丢失数据。眼下大数据领域最热门的词汇之一便是流计算了，其中最耀眼的项目无疑是来自Spark社区的Spark Streaming项目，其从一诞生就受到广泛关注并迅速发展。对于流计算而言，毫无疑问最核心的特点是它的低时延能力，这主要是来自对数据不落磁盘就进行计算的内部机制，但这也带来了数据可靠性的问题，即有节点失效或者网络异常时，如何在节点间进行合适的协商来进行重传。更进一步的，若发生计划外的数据重传，怎么能保证没有产生重…

2017年11月25日 0条评论 626点热度 0人点赞 jhin 阅读全文

命名空间的持久化 HDFS名称空间由NameNode存储。 NameNode使用名为EditLog的事务日志来持久记录文件系统元数据发生的每一个变化。例如，在HDFS中创建一个新文件会产生NameNode向EditLog中写入一条记录，记录这一点。同样，复制因子更改文件会导致将新记录写入到EditLog中。 NameNode使用其本地主机OS文件系统中的文件来存储EditLog。整个文件系统名称空间（包括块到文件和文件系统属性的映射）存储在一个名为FsImage的文件中。 FsImage也作为文件存储在Name…

2017年11月24日 0条评论 799点热度 0人点赞 jhin 阅读全文

目的本文使用仲裁日志管理器（QJM）功能概述了HDFS高可用性（HA）功能以及如何配置和管理HA HDFS群集。本文假设读者对HDFS集群中的通用组件和节点类型有一个大体的了解。注意：使用仲裁日志管理器或常规共享存储本指南讨论如何使用仲裁日志管理器（QJM）配置和使用HDFS HA以共享活动和备用NameNode之间的编辑日志。背景在Hadoop 2.0.0之前，NameNode是HDFS集群中的单点故障（SPOF）问题所在。每个群集都有一个NameNode，如果该机器或进程不可用，整个群集将不可用，…

2017年11月22日 0条评论 876点热度 0人点赞 jhin 阅读全文

副本的放置：第一个创世块对于HDFS的数据块，原文标题是Replica Placement: The First Baby Steps，在这里我翻译为创世块，以前我研究“区块链”，里面有“创世块”的说法，就是第一个块，这样拿来就用，虽然不够准确但是足够我现在应急了（笑）。副本的放置对HDFS的可靠性和性能至关重要。优化副本放置将HDFS与大多数其他分布式文件系统区分开来。这是一个需要大量调整和经验的功能。机架感知机制对于复制品放置的策略提高数据可靠性、可用性和网络带宽利用率。大型HDFS集群运行在通常分…

2017年11月18日 0条评论 859点热度 0人点赞 jhin 阅读全文

HADOOP DISTRIBUTED FILE SYSTEM，简称HDFS，是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高度的容错性，而且提供了高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。关于容错性：首先，节点失效将被看成是正常情况，而不再视为异常情况。整个文件系统包含了几百个或者几千个由廉价的普通机器组成的存储机器，而且这些机器是被与之匹配数量的客户端机器访问。这些节点的质量和数量都实际上都确定了在任意给定…

2017年11月13日 0条评论 539点热度 0人点赞 jhin 阅读全文

MySQL常用的日志文件错误日志(error log)： log-err 查询日志(general query log)： log 慢查询日志: -log-slow-queries 二进制日志 (binary log)： log-bin 中继日志( relay log)：realy-log innodb 在线redo 日志查看MySQL支持的日志 mysql> show variables like 'log_%'; +----------------------------------------+-…

2017年11月1日 0条评论 828点热度 0人点赞 jhin 阅读全文

上一篇文章文章写到了单机版的配置，现在开始搭建我们的集群，开启我们的六台机器，准备搞事情！！！声明：1，这篇文章只能搭建一个普通的hadoop集群，没有涉及到高可用。 ====================================== 现在可以准备搭建集群了，记得我们的六个节点（centos虚拟机）吗？先搭建一个普通的HDFS集群，说实话，和搭建单机版没什么区别，只要改变几个参数就可以了。现在，我们先去规划一下我们的节点，我们的各个节点负责什么呢？为了保证以后高可用的实现，本集群只设置了三台主机。 …

2017年10月28日 0条评论 507点热度 0人点赞 jhin 阅读全文

hive作为hadoop的生态系统的重要的一环，将关系型数据库和hadoop生态系统连接了起来。而hive支持类sql结构化语句查询，所以有时候就需要优化它。 hive的执行是由mapreduce驱动的，所以hive的优化也需要去配置mapreduce。 ========================优化原则总结======================== join连接时的优化：当三个或多个以上的表进行join操作时，如果每个on使用相同的字段连接时只会产生一个mapreduce。 join连接时的优化：当…

2017年10月12日 0条评论 640点热度 0人点赞 jhin 阅读全文

上一篇当中，我们的准备工作做的差不多了，现在是时候开始我们的大数据之旅了；但是我们要规划一下我们的旅行路线。我们的六个节点（大数据的主机被称为节点）如何使用？一：hadoop是由HDFS（分布式文件系统）提供数据存储，它会将数据切分成块进行存储，每个块由我们自己定义，比如我们可以把块定义为128M一个，当然hadoop作为离线的数据分析平台，处理的数据量很大（PB或者ZB级别数据），所以，实际生产环境一个块一般存储为处理数据的百分之一左右（这个看数据读写速度，机械硬盘的IOPS小，所以要考虑磁盘IO性能，涉及到了…

2017年9月27日 0条评论 543点热度 0人点赞 jhin 阅读全文

123

Spark调优——序列化方式调优

Spark Streaming——数据可靠性和一致性

hadoop技术探秘03——HDFS命名空间和数据稳定性

HDFS高可用性QJM——原理

hadoop技术探秘03——HDFS数据复制深入探究

hadoop技术探秘02——什么是HDFS

MySQL——日志文件与日志作用

hadoop技术探秘01——hadoop环境搭建04

HIVE的优化原则

hadoop技术探秘01——hadoop环境搭建03