hadoop技术探秘02——什么是MapReduce

MapReduce是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。概念“Map（映射）”和“Reduce（归纳）”，及他们的主要思想，都是从函数式编程语言借来的，还有从矢量编程语言借来的特性。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归纳）函数，用来保证所有映射的键值对中的每一个共享相同的键组。映射（Map）和归纳（Reduce）简单来说，一个映射函数就是对一些独立元素组成的概念上的列表（例如，一个测试成绩的列表）的每…

2017年12月19日 0条评论 749点热度 0人点赞 jhin 阅读全文

在我们编译源代码的时候，当我们构建成功的时候会输出一些信息 [INFO] ------------------------------------------------------------------------ [INFO] Reactor Summary: [INFO] [INFO] Apache Hadoop Main ................................. SUCCESS [02:33 min] [INFO] Apache Hadoop Build Tools ......…

2017年12月5日 0条评论 666点热度 0人点赞 jhin 阅读全文

对于官网提供的hadoop成品文件，是在32位的状态下编译打包的，为了充分发挥64位系统和硬件的实力，我们准备在64位环境下进行编译打包处理。编译环境系统：CentOS7 java版本：jdk1.8.0_144 硬件：四核8GiB内存编译准备安装jdk，首先去jdk官网下载rpm结尾的jdk文件 rpm -ivh jdk8u144.rpm 安装maven wget http://ftp.cuhk.edu.hk/pub/packages/apache.org/maven/maven-3/3.5.2/binar…

2017年12月5日 0条评论 506点热度 0人点赞 jhin 阅读全文

CapacityScheduler CapacityScheduler ，它是Hadoop的可插拔调度程序，它允许多租户安全地共享大型集群，以便在分配的限制容量下及时分配资源。概观 CapacityScheduler设计用于以操作友好的方式将Hadoop应用程序作为多租户共享的群集来运行，同时最大限度地提高群集的吞吐量和利用率。传统上，每个组织都拥有自己的一组计算资源，这些计算资源具有足够的能力来满足组织在峰值或接近峰值条件下的SLA。每个组织一个集群，这通常导致管理多个独立群集的平时利用率较低。在组织之间共…

2017年12月4日 0条评论 550点热度 0人点赞 jhin 阅读全文

HDFS是Hadoop应用程序使用的主要分布式存储。 HDFS集群主要由管理文件系统元数据的NameNode和存储实际数据的DataNode组成。 “HDFS体系结构指南”详细介绍了HDFS。HDFS体系结构图描述了NameNode，DataNode和客户端之间的基本交互。客户联系NameNode文件元数据或文件修改，并直接与DataNode执行实际的文件I / O。以下是许多用户可能感兴趣的一些显着特性。 Hadoop，包括HDFS，非常适合使用商品硬件的分布式存储和分布式处理。它具有容错性，可扩展性，并且…

2017年11月28日 0条评论 441点热度 0人点赞 jhin 阅读全文

目的本文使用仲裁日志管理器（QJM）功能概述了HDFS高可用性（HA）功能以及如何配置和管理HA HDFS群集。本文假设读者对HDFS集群中的通用组件和节点类型有一个大体的了解。注意：使用仲裁日志管理器或常规共享存储本指南讨论如何使用仲裁日志管理器（QJM）配置和使用HDFS HA以共享活动和备用NameNode之间的编辑日志。背景在Hadoop 2.0.0之前，NameNode是HDFS集群中的单点故障（SPOF）问题所在。每个群集都有一个NameNode，如果该机器或进程不可用，整个群集将不可用，…

2017年11月22日 0条评论 874点热度 0人点赞 jhin 阅读全文

上一篇文章文章写到了单机版的配置，现在开始搭建我们的集群，开启我们的六台机器，准备搞事情！！！声明：1，这篇文章只能搭建一个普通的hadoop集群，没有涉及到高可用。 ====================================== 现在可以准备搭建集群了，记得我们的六个节点（centos虚拟机）吗？先搭建一个普通的HDFS集群，说实话，和搭建单机版没什么区别，只要改变几个参数就可以了。现在，我们先去规划一下我们的节点，我们的各个节点负责什么呢？为了保证以后高可用的实现，本集群只设置了三台主机。 …

2017年10月28日 0条评论 507点热度 0人点赞 jhin 阅读全文

上一篇当中，我们的准备工作做的差不多了，现在是时候开始我们的大数据之旅了；但是我们要规划一下我们的旅行路线。我们的六个节点（大数据的主机被称为节点）如何使用？一：hadoop是由HDFS（分布式文件系统）提供数据存储，它会将数据切分成块进行存储，每个块由我们自己定义，比如我们可以把块定义为128M一个，当然hadoop作为离线的数据分析平台，处理的数据量很大（PB或者ZB级别数据），所以，实际生产环境一个块一般存储为处理数据的百分之一左右（这个看数据读写速度，机械硬盘的IOPS小，所以要考虑磁盘IO性能，涉及到了…

2017年9月27日 0条评论 543点热度 0人点赞 jhin 阅读全文

我们已经将我们的东西准备好了，也准备了Java环境了，下面我们该准备安装这套环境了吧。不急！ ========================分割线======================== 当我们准备好了我们的系统，Java环境，hadoop软件，一切具备。一：现在我们还要准备一个东西，hadoop主机改名，由于每台主机的名字都是localhost.localdomain，所以我们需要修改一下主机名，主机名我们改为像：数字.hadoop.com，比如01.hadoop.com。我们在每台电脑上执行命令 h…

2017年9月23日 0条评论 491点热度 0人点赞 jhin 阅读全文

前面写了这么多，其实都是铺垫，实际上我们今天才是正题，hadoop生态系统，一个开源的大数据系统。 =====================我是一个分割线===================== hadoop生态系统包含了很多很杂乱的组建，在我学习的时候，hadoop的2.8.1版本刚刚正式发布，在这篇文章开始写的时候，hadoop都发布03版本的第四个预览版了。技术，就学最新的。我们从03版本开始学习源代码。首先hadoop是什么？hadoop的百度百科。大家阅读完百度百科其实对hadoop就已经有一个初…

2017年9月21日 0条评论 643点热度 0人点赞 jhin 阅读全文

hadoop技术探秘02——什么是MapReduce

hadoop技术探秘05——hadoop源码简析

hadoop技术探秘04——hadoop源码编译

YARN——CapacityScheduler简单认识

HDFS——使用心得

HDFS高可用性QJM——原理

hadoop技术探秘01——hadoop环境搭建04

hadoop技术探秘01——hadoop环境搭建03

hadoop技术探秘01——hadoop环境搭建02

hadoop技术探秘01——hadoop环境搭建01