hdfs有哪些特点

hdfs的特点:1、高容错;2、流式数据访问;3、支持超大文件;4、高数据吞吐量;5、可构建在廉价的机器上;6、硬件故障;7、简单一致性模型;8、名字节点和数据节点。高容错是指,HDFS中的副本机制会自动把数据保存多个副本,容错性很高。

hdfs有哪些特点-Worktile社区

1、高容错

HDFS是可以由成百上千台服务器机器组成,每个服务器机器存储文件系统数据的一部分。HDFS中的副本机制会自动把数据保存多个副本,DataNode节点周期性地向NameNode发送心跳信号,当网络发生异常,可能导致DataNode与NameNode失去通讯,NameNode和DataNode通过心跳检测机制,发现DataNode宕机,DataNode中副本丢失,HDFS则会从其他DataNode上面的副本自动恢复,所以HDFS具有高的容错性。

2、流式数据访问

HDFS的数据处理规模比较大,应用程序一次需要访问大量的数据,同时这些应用程序一般都是批量的处理数据,而不是用户交互式处理,所以应用程序能以流的形式访问数据集,请求访问整个数据集要比访问一条记录更加高效。

3、支持超大文件

HDFS分布式文件系统具有很大的数据集,旨在可靠的大型集群上存储超大型文件(GB、TB、PB级别的数据),它将每个文件切分成多个小的数据块进行存储,除了最后一个数据块之外的所有数据块大小都相同,块的大小可以在指定的配置文件中进行修改,在Hadoop2.x版本中默认大小是128M。

4、高数据吞吐量

HDFS采用的是“一次写入,多次读取”这种简单的数据一致性模型,在HDFS中,一个文件一旦经过创建、写入、关闭后,一旦写入就不能进行修改了,只能进行追加,这样保证了数据的一致性,也有利于提高吞吐量。

5、可构建在廉价的机器上

Hadoop的设计对硬件要求低,无需构建在昂贵的高可用性机器上,因为在HDFS设计中充分考虑到了数据的可靠性、安全性和高可用性。

6、硬件故障

硬件故障是常态,而不是异常。整个HDFS系统将由数百或数千个存储着文件数据片段的服务器组成。实际上它里面有非常巨大的组成部分,每一个组成部分都很可能出现故障,这就意味着HDFS里的总是有一些部件是失效的,因此,故障的检测和自动快速恢复是HDFS一个很核心的设计目标。

7、简单一致性模型

大部分的HDFS程序对文件操作需要的是一次写多次读取的操作模式。一个文件一旦创建、写入、关闭之后就不需要修改了。这个假定简单化了数据一致的问题,并使高吞吐量的数据访问变得可能。一个Map-Reduce程序或者网络爬虫程序都可以完美地适合这个模型。

8、名字节点和数据节点

HDFS是一个主从结构,一个HDFS集群是由一个名字节点,它是一个管理文件命名空间和调节客户端访问文件的主服务器,当然还有一些数据节点,通常是一个节点一个机器,它来管理对应节点的存储。HDFS对外开放文件命名空间并允许用户数据以文件形式存储。

内部机制是将一个文件分割成一个或多个块,这些块被存储在一组数据节点中。名字节点用来操作文件命名空间的文件或目录操作,如打开,关闭,重命名等等。它同时确定块与数据节点的映射。数据节点负责来自文件系统客户的读写请求。数据节点同时还要执行块的创建,删除,和来自名字节点的块复制指令。

名字节点和数据节点都是运行在普通的机器之上的软件,机器典型的都是GNU/Linux,HDFS是用java编写的,任何支持java的机器都可以运行名字节点或数据节点,利用java语言的超轻便性,很容易将HDFS部署到大范围的机器上。典型的部署是由一个专门的机器来运行名字节点软件,集群中的其他每台机器运行一个数据节点实例。体系结构不排斥在一个机器上运行多个数据节点的实例,但是实际的部署不会有这种情况。

延伸阅读

HDFS 的功能

  • 数据的分布式存储和处理。
  • Hadoop 提供了一个命令接口来与 HDFS 进行交互。
  • namenode 和 datanode 的内置服务器可帮助用户轻松检查群集的状态。
  • 对文件系统数据的流式处理访问。
  • HDFS 提供文件权限和身份验证。

文章标题:hdfs有哪些特点,发布者:Z, ZLW,转载请注明出处:https://worktile.com/kb/p/35525

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
Z, ZLWZ, ZLW认证作者
上一篇 2023年1月13日 下午9:27
下一篇 2023年1月13日 下午9:56

相关推荐

  • 需求管理的风险分析方法

    摘要:需求管理的风险分析方法 包含:1、需求澄清与认证、2、需求优先级排序、3、需求可追踪性、4、变更控制机制、5、风险评估矩阵。对于平衡项目目标与结果的预期,需求管理的风险分析是不可缺少的一个环节。需求澄清与认证 作为需求管理的首步,确保了参与者对需求的共同理解和接受,以防止后续因误解而产生风险。…

    2023年12月18日
    42000
  • 如何管理好项目劳务公司

    如何管理好项目劳务公司?有效的项目劳务公司管理依赖于明确的组织结构、高效的沟通体系、合理的资源分配和严格的质量控制。基于对外部市场的深入了解和内部操作的精细管理,项目劳务公司应建立健全的管理规范,并且把握项目进度与成本,确保劳务输出的效率和质量。在具体操作上,应设置具体的角色职责,通过培训和激励工人…

    2024年4月10日
    6000
  • plm产品研发管理

    标题:PLM产品研发管理 摘要:PLM(Product Lifecycle Management)产品研发管理是一种系统化的管理策略,它涉及产品从概念构思到退市的完整生命周期1、协助企业更有效地控制和优化产品开发2、促进创新和协作3、以及提高产品和过程质量。PLM整合了人员、数据、流程和业务系统,确…

    2024年1月10日
    23700
  • 地铁oa系统

    地铁运营辅助(OA)系统是设计用来优化地铁作业效率、提升员工协同以及增强乘客服务体验的综合性信息平台。1、它通过集成调度管理、实时监控、资料管理以及通信协作等模块;2、强化地铁运营安全与顺畅;3、提升运营管理水平;4、加强灾难应急处置能力。在解析第二点时,系统对实时监控技术的应用尤为重要,因为实时监…

    2024年1月12日
    39200
  • devops项目什么意思

    开篇论述DEVOPS项目意义,集成软件开发(Development)与信息技术运维(Operations)的一套工作原则与方法,旨在提升系统软件生命周期内的效率和质量。1、促进了开发与运维团队的协同工作,2、显著降低了软件部署的时间与成本,3、提高了系统的可靠性与安全性。特别侧重于第1点,促进开发与…

    2024年3月26日
    6900
  • 空洞卷积(dilated convolution)是什么

    在深度学习中,尤其是图像处理和语音处理领域,不同种类的卷积技术扮演着至关重要的角色。空洞卷积,也被称为dilated convolution,是其中的一种。需要考虑以下几个方面:1、基本定义;2、操作方式;3、应用场景;4、与普通卷积的比较;5、优势与局限;6、主要应用。 1、基本定义 空洞卷积:通…

    2023年7月23日
    69600
  • tagged端口和untagged端口的区别

    在网络设备中,特别是在交换机和路由器中,”Tagged”和”Untagged”端口的区别主要涉及到VLAN(虚拟局域网)的处理。主要区别包括以下几点:1、VLAN标签处理;2、网络流量控制;3、适用场景。 1、VLAN标签处理 “Tagge…

    2023年8月4日
    7.2K00
  • 如何做好知识库建设

    做好知识库建设需要做好以下步骤:1、为知识库定义目标;2、确立内容主题;3、为知识库构建结构;4、编写知识库内容;5、使知识内容可访问和能用;6、考虑知识库的使用步骤及其伤害;7、随着时间推移更新和优化知识库。 1、为知识库定义目标 与所有业务计划一样,您的名列前茅步可谓是依据创建知识库来定义您希望…

    2022年11月16日
    79600
  • 项目管理用什么工具

    项目管理用的工具有:一、PingCode;二、Worktile;三、Wrike;四、Smartsheet;五、Clarizen;六、Backlog。PingCode 是国内2021年软件项目管理榜单排名名列前茅的项目管理软件(36氪发布),在软件项目管理方面它有着非常多其他软件都不具备的优势。 一、…

    2023年4月27日
    38200
  • 研发项目管理制度完整版

    标题:研发项目管理制度完整版 摘要: 研发项目管理制度是确保项目按时、按预算和按质量完成的关键。在这篇文章中,我们围绕三大核心要素来展开讨论:1、组织架构和职责分配、2、项目规划与执行、3、质量控制与风险管理。组织架构和职责分配是基础,它包括明确地划分角色职责和设置专业的管理团队,从而保障任务分工明…

    2024年1月10日
    26000

发表回复

登录后才能评论
注册PingCode 在线客服
站长微信
站长微信
电话联系

400-800-1024

工作日9:30-21:00在线

分享本页
返回顶部