与服务器一起的日子

MapReduce是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。概念“Map（映射）”和“Reduce（归纳）”，及他们的主要思想，都是从函数式编程语言借来的，还有从矢量编程语言借来的特性。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归纳）函数，用来保证所有映射的键值对中的每一个共享相同的键组。映射（Map）和归纳（Reduce）简单来说，一个映射函数就是对一些独立元素组成的概念上的列表（例如，一个测试成绩的列表）的每…

2017年12月19日 0条评论 748点热度 0人点赞 jhin 阅读全文

在centos7上安装redis redis没有已经编译好的文件，需要自己去编译安装。首先下载我们的源码包。 wget http://download.redis.io/releases/redis-4.0.6.tar.gz 这是下载4.0.6稳定版本的源代码。当我们下载完成后，解压。 tar -zvxf redis-4.0.6.tar.gz 进入redis目录，准备编译。 cd redis-4.0.6 && yum -y install gcc gcc-c++ 解压好以后，编译并安装到指定目录…

2017年12月17日 0条评论 498点热度 0人点赞 jhin 阅读全文

Redis 是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。 Redis 与其他 key - value 缓存产品有以下三个特点： Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。 Redis支持数据的备份，即master-slave模式的数据备份。 Redis 优势性能极高 – Redis能读的速度是110000次/s,写…

2017年12月15日 0条评论 498点热度 0人点赞 jhin 阅读全文

在我们编译源代码的时候，当我们构建成功的时候会输出一些信息 [INFO] ------------------------------------------------------------------------ [INFO] Reactor Summary: [INFO] [INFO] Apache Hadoop Main ................................. SUCCESS [02:33 min] [INFO] Apache Hadoop Build Tools ......…

2017年12月5日 0条评论 665点热度 0人点赞 jhin 阅读全文

对于官网提供的hadoop成品文件，是在32位的状态下编译打包的，为了充分发挥64位系统和硬件的实力，我们准备在64位环境下进行编译打包处理。编译环境系统：CentOS7 java版本：jdk1.8.0_144 硬件：四核8GiB内存编译准备安装jdk，首先去jdk官网下载rpm结尾的jdk文件 rpm -ivh jdk8u144.rpm 安装maven wget http://ftp.cuhk.edu.hk/pub/packages/apache.org/maven/maven-3/3.5.2/binar…

2017年12月5日 0条评论 505点热度 0人点赞 jhin 阅读全文

CapacityScheduler CapacityScheduler ，它是Hadoop的可插拔调度程序，它允许多租户安全地共享大型集群，以便在分配的限制容量下及时分配资源。概观 CapacityScheduler设计用于以操作友好的方式将Hadoop应用程序作为多租户共享的群集来运行，同时最大限度地提高群集的吞吐量和利用率。传统上，每个组织都拥有自己的一组计算资源，这些计算资源具有足够的能力来满足组织在峰值或接近峰值条件下的SLA。每个组织一个集群，这通常导致管理多个独立群集的平时利用率较低。在组织之间共…

2017年12月4日 0条评论 549点热度 0人点赞 jhin 阅读全文

对于我们需要高速写入的业务，单个数据库服务器很容易出现单点问题，所以我们为了消除单点问题，引入了双主互备。其简易架构图演示环境操作系统：centos7 数据库版本：MySQL5.7.19 master01:192.168.1.21 master02:192.168.1.22 操作过程配置master01的/etc/my.cnf配置文件 server-id= 21 #数据库ID log_bin = /var/log/mysql/mysql-bin #启用二进制日志如果没有var/log/mysql这个目录，…

2017年12月1日 0条评论 528点热度 0人点赞 jhin 阅读全文

Apache Hadoop中的 YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器（yarn在hadoop2.x版本里面集成），它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度。 YARN简介 YARN的基本思想是将资源管理和作业调度/监控的功能分解成单独的守护进程。这个想法是有一个全局的资源管理器（ RM ）和每个应用程序的ApplicationMaster（ AM ）。应用程序可以是单个作业，也可以是DAG作业。 …

2017年11月28日 0条评论 532点热度 0人点赞 jhin 阅读全文

HDFS是Hadoop应用程序使用的主要分布式存储。 HDFS集群主要由管理文件系统元数据的NameNode和存储实际数据的DataNode组成。 “HDFS体系结构指南”详细介绍了HDFS。HDFS体系结构图描述了NameNode，DataNode和客户端之间的基本交互。客户联系NameNode文件元数据或文件修改，并直接与DataNode执行实际的文件I / O。以下是许多用户可能感兴趣的一些显着特性。 Hadoop，包括HDFS，非常适合使用商品硬件的分布式存储和分布式处理。它具有容错性，可扩展性，并且…

2017年11月28日 0条评论 440点热度 0人点赞 jhin 阅读全文

由于大多数的spark计算是基于内存的的天性，spark应用的瓶颈一般受制于集群的CPU，网络带宽，内存。大部分情况下，如果内存适合当前数据量的计算，那么瓶颈往往就是带宽，但是有时候我们也需要进行一些调优比如序列化，来减少内存的使用。调优系列目前主要会更新两个主题：数据序列化，这点对于网络带宽调优和减少内存是至关重要的；另一种是内存调优。当然，也会简单介绍一些其他的调优点。本文只讲数据的序列化。在任何分布式应用中序列化都扮演者一个重要的角色。序列化过程非常慢的或者消耗大量字节的序列化格式，都是会巨大的减缓计算速度…

2017年11月26日 0条评论 506点热度 0人点赞 jhin 阅读全文

1 234 5…7

hadoop技术探秘02——什么是MapReduce

Redis的安装

Redis 简介

hadoop技术探秘05——hadoop源码简析

hadoop技术探秘04——hadoop源码编译

YARN——CapacityScheduler简单认识

MySql高可用——双主架构

hadoop技术探秘02——什么是yarn

HDFS——使用心得

Spark调优——序列化方式调优