hadoop集群是什么

Z, ZLW 351

一个hadoop集群主要包含三个主要的模块:Mapreduce,hdfs,yarn。mapreduce是一个分离在合并的计算框架,注意他不是一个集群,而是一个编程框架。hdfs是一个分布式文件系统,是一个分布式集群,用于存放数据。yarn集群是负责集群任务调度和运算资源管理的分布式集群。

Hadoop作为大数据计算框架,核心关键点就是分布式集群的搭建,基于集群环境,大规模的数据处理任务成为可能,可以说是提供大数据计算的关键性技术支持。那么Hadoop集群是什么?Hadoop集群搭建原理是什么,今天我们来仔细聊一聊。

Hadoop集群的搭建,分布式文件系统HDFS提供了基础存储支持,需要存储的数据被HDFS切割成块分布到集群环境当中进行存储,具有高容错、高可靠性、高可扩展性、高获得性、高吞吐率。

HDFS

HDFS的设计目标,就是为了存储非常大的文件。这里非常大指的是几百M、G、或者TB级别。实际应用中已有很多集群存储的数据达到PB级别。

基于HDFS搭建的Hadoop集群环境,对于硬件的要求不高,普通的商用机器就能支持,在集群中(尤其是大的集群),节点失败率是比较高的HDFS的目标是确保集群在节点失败的时候不会让用户感觉到明显的中断。

在Hadoop集群环境当中,HDFS客户端提供基本的性能支持:

①提供一些命令来管理、访问HDFS,比如启动或者关闭HDFS。

②与DataNode交互,读取或者写入数据;读取时,要与NameNode交互,获取文件的位置信息;写入HDFS的时候,Client将文件切分成一个一个的Block,然后进行存储。

NameNode:负责管理HDFS的名称空间、管理数据块(Block)映射信息、配置副本策略、处理客户端读写请求。

DataNode:当NameNode下达命令,DataNode执行实际的操作,包括存储实际的数据块、执行数据块的读/写操作。

Secondary NameNode:辅助NameNode,分担其工作量;定期合并fsimage和fsedits,并推送给NameNode;在紧急情况下,可辅助恢复NameNode。

回复

我来回复
  • 暂无回复内容

注册PingCode 在线客服
站长微信
站长微信
电话联系

400-800-1024

工作日9:30-21:00在线

分享本页
返回顶部