与服务器一起的日子

Spark Streaming需要提升的地方同样很多，比如1.2之前版本driver挂掉可能会丢失数据。眼下大数据领域最热门的词汇之一便是流计算了，其中最耀眼的项目无疑是来自Spark社区的Spark Streaming项目，其从一诞生就受到广泛关注并迅速发展。对于流计算而言，毫无疑问最核心的特点是它的低时延能力，这主要是来自对数据不落磁盘就进行计算的内部机制，但这也带来了数据可靠性的问题，即有节点失效或者网络异常时，如何在节点间进行合适的协商来进行重传。更进一步的，若发生计划外的数据重传，怎么能保证没有产生重…

2017年11月25日 0条评论 625点热度 0人点赞 jhin 阅读全文

命名空间的持久化 HDFS名称空间由NameNode存储。 NameNode使用名为EditLog的事务日志来持久记录文件系统元数据发生的每一个变化。例如，在HDFS中创建一个新文件会产生NameNode向EditLog中写入一条记录，记录这一点。同样，复制因子更改文件会导致将新记录写入到EditLog中。 NameNode使用其本地主机OS文件系统中的文件来存储EditLog。整个文件系统名称空间（包括块到文件和文件系统属性的映射）存储在一个名为FsImage的文件中。 FsImage也作为文件存储在Name…

2017年11月24日 0条评论 797点热度 0人点赞 jhin 阅读全文

最近发现自己的知识碎片越来越多了，需要时间去整理，也需要地方去记录，于是我就瞄上了github的免费blog服务，毕竟免费的就是最好的，而且碎片化的知识更适合wiki的形式，尽管，网上的免费wiki系统很多，但是自己动手来定制可以更好的实现自己想要的功能和界面。一、为什么用wiki来管理知识碎片？ blog更适合来系统阐述知识和长篇大论的文章。 wiki不需要数据库，适合短小的知识。二、为什么使用github托管网站？免费，不必考虑服务器费用安全，不必考虑服务器的安全问题支持markdown，毕竟现在的m…

2017年11月23日 0条评论 514点热度 0人点赞 jhin 阅读全文

目的本文使用仲裁日志管理器（QJM）功能概述了HDFS高可用性（HA）功能以及如何配置和管理HA HDFS群集。本文假设读者对HDFS集群中的通用组件和节点类型有一个大体的了解。注意：使用仲裁日志管理器或常规共享存储本指南讨论如何使用仲裁日志管理器（QJM）配置和使用HDFS HA以共享活动和备用NameNode之间的编辑日志。背景在Hadoop 2.0.0之前，NameNode是HDFS集群中的单点故障（SPOF）问题所在。每个群集都有一个NameNode，如果该机器或进程不可用，整个群集将不可用，…

2017年11月22日 0条评论 874点热度 0人点赞 jhin 阅读全文

这篇文章主要是应对web方面的架构，而且不是什么很新鲜的东西了（对于新的东西，各个公司都有保密协议），Nginx负载均衡。什么是Nginx Nginx (engine x) 是一个高性能的HTTP和反向代理服务器，也是一个IMAP/POP3/SMTP服务器。Nginx是由伊戈尔·赛索耶夫为俄罗斯访问量第二的Rambler.ru站点（俄文：Рамблер）开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻…

2017年11月19日 0条评论 846点热度 0人点赞 jhin 阅读全文

副本的放置：第一个创世块对于HDFS的数据块，原文标题是Replica Placement: The First Baby Steps，在这里我翻译为创世块，以前我研究“区块链”，里面有“创世块”的说法，就是第一个块，这样拿来就用，虽然不够准确但是足够我现在应急了（笑）。副本的放置对HDFS的可靠性和性能至关重要。优化副本放置将HDFS与大多数其他分布式文件系统区分开来。这是一个需要大量调整和经验的功能。机架感知机制对于复制品放置的策略提高数据可靠性、可用性和网络带宽利用率。大型HDFS集群运行在通常分…

2017年11月18日 0条评论 857点热度 0人点赞 jhin 阅读全文

HADOOP DISTRIBUTED FILE SYSTEM，简称HDFS，是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高度的容错性，而且提供了高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。关于容错性：首先，节点失效将被看成是正常情况，而不再视为异常情况。整个文件系统包含了几百个或者几千个由廉价的普通机器组成的存储机器，而且这些机器是被与之匹配数量的客户端机器访问。这些节点的质量和数量都实际上都确定了在任意给定…

2017年11月13日 0条评论 538点热度 0人点赞 jhin 阅读全文

这是一篇填坑之作，作为我个人blog的第四篇博文，里面提及到了源码编译安装mysql，但是没有详细写，我经过一段时间的研究和摸索，探究出了在centos7上面编译安装mysql的通用方法（里面没有涉及到mysql编译调优），望大家喜欢这篇文章。 ===============分割线=============== 一.编译前的准备 1.安装相关的软件 yum -y install cmake gcc-c++ g++ 2.安装相关依赖 yum -y install ncurses ncurses-devel opens…

2017年11月12日 0条评论 542点热度 0人点赞 jhin 阅读全文

双主架构的概念简单说一下，就是要保持两个数据库的状态自动同步。对任何一个数据库的操作都自动应用到另外一个数据库，始终保持两个数据库数据一致。这样做的好处多： 1. 可以做灾备，其中一个坏了可以切换到另一个。 2. 可以做负载均衡，可以将请求分摊到其中任何一台上，提高网站吞吐量。 3.对于异地热备，尤其适合灾备。双主架构的工作原理：简单的说就是把一个服务器上执行过的sql语句在别的服务器上也重复执行一遍，这样只要两个数据库的初态是一样的，那么它们就能一直同步。当然这种复制和重复都是mysql自动实现的，我…

2017年11月2日 0条评论 498点热度 0人点赞 jhin 阅读全文

binlog 就是binary log，二进制日志文件，这个文件记录了mysql所有的dml操作。通过binlog日志我们可以做数据恢复，做主住复制和主从复制等等。对于开发者可能对binlog并不怎么关注，但是对于运维或者架构人员来讲是非常重要的。 mysqlbinlog工具将binary log文件由二进制转换为可读的文本文件，可以选择基于时间或位置的事件。设置binlog 编辑/etc/my.cnf文件，在[mysqld]标签里面添加 log-bin=mysql-bin server-id=1 在这个情况下，…

2017年11月2日 0条评论 839点热度 0人点赞 jhin 阅读全文

1 2 345…7

Spark Streaming——数据可靠性和一致性

hadoop技术探秘03——HDFS命名空间和数据稳定性

【胡侃】github上面创建自己的网站

HDFS高可用性QJM——原理

linux闲谈——nginx负载均衡

hadoop技术探秘03——HDFS数据复制深入探究

hadoop技术探秘02——什么是HDFS

centos7编译mysql5.7.19源代码

MySQL高可用——主从架构原理

MySQL——根据binlog恢复数据库数据