上一篇当中,我们的准备工作做的差不多了,现在是时候开始我们的大数据之旅了;但是我们要规划一下我们的旅行路线。我们的六个节点(大数据的主机被称为节点)如何使用? 一:hadoop是由HDFS(分布式文件系统)提供数据存储,它会将数据切分成块进行存储,每个块由我们自己定义,比如我们可以把块定义为128M一个,当然hadoop作为离线的数据分析平台,处理的数据量很大(PB或者ZB级别数据),所以,实际生产环境一个块一般存储为处理数据的百分之一左右(这个看数据读写速度,机械硬盘的IOPS小,所以要考虑磁盘IO性能,涉及到了…