hadoop集群是什么

Z, ZLW 3年前 572

一个hadoop集群主要包含三个主要的模块：Mapreduce,hdfs,yarn。mapreduce是一个分离在合并的计算框架，注意他不是一个集群，而是一个编程框架。hdfs是一个分布式文件系统，是一个分布式集群，用于存放数据。yarn集群是负责集群任务调度和运算资源管理的分布式集群。

Hadoop作为大数据计算框架，核心关键点就是分布式集群的搭建，基于集群环境，大规模的数据处理任务成为可能，可以说是提供大数据计算的关键性技术支持。那么Hadoop集群是什么？Hadoop集群搭建原理是什么，今天我们来仔细聊一聊。

Hadoop集群的搭建，分布式文件系统HDFS提供了基础存储支持，需要存储的数据被HDFS切割成块分布到集群环境当中进行存储，具有高容错、高可靠性、高可扩展性、高获得性、高吞吐率。

HDFS

HDFS的设计目标，就是为了存储非常大的文件。这里非常大指的是几百M、G、或者TB级别。实际应用中已有很多集群存储的数据达到PB级别。

基于HDFS搭建的Hadoop集群环境，对于硬件的要求不高，普通的商用机器就能支持，在集群中（尤其是大的集群），节点失败率是比较高的HDFS的目标是确保集群在节点失败的时候不会让用户感觉到明显的中断。

在Hadoop集群环境当中，HDFS客户端提供基本的性能支持：

①提供一些命令来管理、访问HDFS，比如启动或者关闭HDFS。

②与DataNode交互，读取或者写入数据；读取时，要与NameNode交互，获取文件的位置信息；写入HDFS的时候，Client将文件切分成一个一个的Block，然后进行存储。

NameNode：负责管理HDFS的名称空间、管理数据块（Block）映射信息、配置副本策略、处理客户端读写请求。

DataNode：当NameNode下达命令，DataNode执行实际的操作，包括存储实际的数据块、执行数据块的读/写操作。

Secondary NameNode：辅助NameNode，分担其工作量；定期合并fsimage和fsedits，并推送给NameNode；在紧急情况下，可辅助恢复NameNode。

我来回复