hdfs有哪些特点

hdfs的特点:1、高容错;2、流式数据访问;3、支持超大文件;4、高数据吞吐量;5、可构建在廉价的机器上;6、硬件故障;7、简单一致性模型;8、名字节点和数据节点。高容错是指,HDFS中的副本机制会自动把数据保存多个副本,容错性很高。

hdfs有哪些特点-Worktile社区

1、高容错

HDFS是可以由成百上千台服务器机器组成,每个服务器机器存储文件系统数据的一部分。HDFS中的副本机制会自动把数据保存多个副本,DataNode节点周期性地向NameNode发送心跳信号,当网络发生异常,可能导致DataNode与NameNode失去通讯,NameNode和DataNode通过心跳检测机制,发现DataNode宕机,DataNode中副本丢失,HDFS则会从其他DataNode上面的副本自动恢复,所以HDFS具有高的容错性。

2、流式数据访问

HDFS的数据处理规模比较大,应用程序一次需要访问大量的数据,同时这些应用程序一般都是批量的处理数据,而不是用户交互式处理,所以应用程序能以流的形式访问数据集,请求访问整个数据集要比访问一条记录更加高效。

3、支持超大文件

HDFS分布式文件系统具有很大的数据集,旨在可靠的大型集群上存储超大型文件(GB、TB、PB级别的数据),它将每个文件切分成多个小的数据块进行存储,除了最后一个数据块之外的所有数据块大小都相同,块的大小可以在指定的配置文件中进行修改,在Hadoop2.x版本中默认大小是128M。

4、高数据吞吐量

HDFS采用的是“一次写入,多次读取”这种简单的数据一致性模型,在HDFS中,一个文件一旦经过创建、写入、关闭后,一旦写入就不能进行修改了,只能进行追加,这样保证了数据的一致性,也有利于提高吞吐量。

5、可构建在廉价的机器上

Hadoop的设计对硬件要求低,无需构建在昂贵的高可用性机器上,因为在HDFS设计中充分考虑到了数据的可靠性、安全性和高可用性。

6、硬件故障

硬件故障是常态,而不是异常。整个HDFS系统将由数百或数千个存储着文件数据片段的服务器组成。实际上它里面有非常巨大的组成部分,每一个组成部分都很可能出现故障,这就意味着HDFS里的总是有一些部件是失效的,因此,故障的检测和自动快速恢复是HDFS一个很核心的设计目标。

7、简单一致性模型

大部分的HDFS程序对文件操作需要的是一次写多次读取的操作模式。一个文件一旦创建、写入、关闭之后就不需要修改了。这个假定简单化了数据一致的问题,并使高吞吐量的数据访问变得可能。一个Map-Reduce程序或者网络爬虫程序都可以完美地适合这个模型。

8、名字节点和数据节点

HDFS是一个主从结构,一个HDFS集群是由一个名字节点,它是一个管理文件命名空间和调节客户端访问文件的主服务器,当然还有一些数据节点,通常是一个节点一个机器,它来管理对应节点的存储。HDFS对外开放文件命名空间并允许用户数据以文件形式存储。

内部机制是将一个文件分割成一个或多个块,这些块被存储在一组数据节点中。名字节点用来操作文件命名空间的文件或目录操作,如打开,关闭,重命名等等。它同时确定块与数据节点的映射。数据节点负责来自文件系统客户的读写请求。数据节点同时还要执行块的创建,删除,和来自名字节点的块复制指令。

名字节点和数据节点都是运行在普通的机器之上的软件,机器典型的都是GNU/Linux,HDFS是用java编写的,任何支持java的机器都可以运行名字节点或数据节点,利用java语言的超轻便性,很容易将HDFS部署到大范围的机器上。典型的部署是由一个专门的机器来运行名字节点软件,集群中的其他每台机器运行一个数据节点实例。体系结构不排斥在一个机器上运行多个数据节点的实例,但是实际的部署不会有这种情况。

延伸阅读

HDFS 的功能

 • 数据的分布式存储和处理。
 • Hadoop 提供了一个命令接口来与 HDFS 进行交互。
 • namenode 和 datanode 的内置服务器可帮助用户轻松检查群集的状态。
 • 对文件系统数据的流式处理访问。
 • HDFS 提供文件权限和身份验证。

文章标题:hdfs有哪些特点,发布者:Z, ZLW,转载请注明出处:https://worktile.com/kb/p/35525

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023年1月13日 下午9:27
下一篇 2023年1月13日 下午9:56

相关推荐

 • 低代码软件能为企业带来什么价值?

  近年来,随着数字化转型和云计算技术的普及,低代码平台已经成为企业开发和应用程序的首选工具之一。低代码平台可以大大缩短开发时间和成本,提高灵活性和可扩展性,同时保证应用程序的质量和稳定性。在这个强制数字化的时代,低代码平台正在助力企业以更快、更便宜的方式构建并推出业务应用。那么,在此背景下,我们将会介绍2023年全球最佳的低代码平台,以帮助企业理解其不同的优点和价值,并为企业选择正确的平台提供指导。

  2023年9月22日
  1200
 • jira多少钱一套

  国内主流公司研发团队,绝大多数通过购买Atlassian公司提供的Jira Server版本来满足管理需求,根据公司规模,这项花费通常在5万到300万人民币之间。在国内使用Jira,通常包含:软件成本、插件成本、运维成本、实施成本、定制成本。

  2023年2月6日
  84800
 • 偶数科技的Oushu Database和其他数据库有什么不同

  不同之处有:一、数据存储方式;二、数据处理速度;三、高可扩展性;四、数据安全性;五、数据分析功能。Oushu Database采用的是列存储方式,而其他数据库通常采用的是行存储方式。列存储方式可以在快速查询时提高性能,尤其是对于大型数据集的查询和分析。 一、数据存储方式 Oushu Database…

  2023年6月11日
  5000
 • IaaS、PaaS和SaaS是什么

  SaaS 是软件的开发、管理、部署都交给第三⽅,不需要关⼼技术问题,可以拿来即⽤。普通⽤户接触到的互联⽹服务,⼏乎都是 SaaS,PaaS 提供软件部署平台(runtime),IaaS 是云服务的最底层,主要提供⼀些基础资源。 一、基础设施即服务 (IaaS :Infrastructure as a…

  2023年4月29日
  7300
 • 如何做任务规划与跟进

  步骤:制订项目执行计划;明确人员分工;优化工作流,确保工作标准;定期检查项目节点/里程碑;项目组成员的沟通;把控工作进度;项目团队的激励。制定计划必须要明确任务、负责人、项目的开始和结束时间。 制订项目执行计划 制定计划必须要明确任务、负责人、项目的开始和结束时间。尽可能地把任务细分,任务的先后顺序…

  2023年3月30日
  9700
 • 学习编程需要安装哪些软件

  代码编程软件有:1、Vim;2、C++编译器;3、Dev-C++;4、Visual Studio;5、MyEclipse;6、NetBeans;7、Sublime Text。Vim是一款文本代码编辑器,它最大的特点就是全键盘的操作编辑方式,可以完全脱离鼠标,这种方式一旦掌握,结合键盘各种组合操作可以…

  2023年2月6日
  53200
 • 数组是什么

  数组(Array)是有序的元素序列。若将有限个类型相同的变量的集合命名,那么这个名称为数组名。组成数组的各个变量称为数组的分量,也称为数组的元素,有时也称为下标变量。用于区分数组的各个元素的数字编号称为下标。 一、数组的概念 数组(Array)是有序的元素序列。 若将有限个类型相同的变量的集合命名,…

  2023年4月14日
  7700
 • 为什么mysql默认事务隔离级别是可重复读

  原因是:一、数据的一致性和可靠性;二、兼顾并发性能和数据一致性;三、符合应用场景。MySQL旨在提供高度一致性和可靠性的数据存储解决方案,所以是可重复读隔离级别。这种隔离级别可以保证多个事务之间的数据不会相互干扰,从而确保数据的一致性和可靠性。 一、数据的一致性和可靠性 MySQL旨在提供高度一致性…

  2023年5月29日
  16500
 • 智行者CEO张德兆:这个时代就是最大的背景、最硬的资源

  张德兆,智行者董事长&CEO 清华大学博士、博士后、教授级高工 清华大学创新创业企业导师 多项智能汽车国家标准、智能网联汽车发展路线图主要起草人 曾领导多项ADAS算法及系统开发并实现量产配套 在清华大学积累超过百万公里路测里程的数据经验 文 |babayage 编辑 | 笑笑 坐在街角幻…

  2022年3月20日
  24600
 • WEB里面的反向代理是什么意思

  反向代理服务器位于用户与目标服务器之间,但是对于用户而言,反向代理服务器就相当于目标服务器,即用户直接访问反向代理服务器就可以获得目标服务器的资源。同时,用户不需要知道目标服务器的地址,也无须在用户端作任何设定。 反向代理服务器位于用户与目标服务器之间,但是对于用户而言,反向代理服务器就相当于目标服…

  2023年5月29日
  2400

发表回复

登录后才能评论
联系我们
站长微信
站长微信
电话联系

400-800-1024

工作日9:30-21:00在线

分享本页
返回顶部