hdfs有哪些缺点

hdfs有以下缺点:1、不能做到低延迟数据访问;2、不适合大量的小文件存储;3、不能并发写入、文件随机修改。不能做到低延迟数据访问是指HDFS 针对一次性读取大量数据做了优化,但它在低延时的情况下是不行的,比如毫秒级以内读取数据,这样它是很难做到的。

hdfs有哪些缺点-Worktile社区

1、不能做到低延迟数据访问

HDFS 针对一次性读取大量数据继续了优化,牺牲了延迟性。例如,订单是否适合存储在HDFS中,要求数据毫秒级就要查出来。它适合高吞吐率的场景,就是在某一时间内写入大量的数据。但是它在低延时的情况下是不行的,比如毫秒级以内读取数据,这样它是很难做到的。如果要处理一些用户要求时间比较短的低延迟应用请求,则HDFS不适合。HDFS是为了处理大型数据集分析任务的,主要是为达到高的数据吞吐量而设计的,这就可能要求以高延迟作为代价。

2、不适合大量的小文件存储

不适合大量的小文件存储,如果真有这种需求的话,要对小文件进行压缩。由于namenode将文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于namenode的内存容量。根据经验,每个文件、目录和数据块的存储信息大约占150字节。因此,如果有一百万个小文件,每个小文件都会占一个数据块,那至少需要300MB内存。如果是上亿级别的,就会超出当前硬件的能力。

3、不能并发写入、文件随机修改

不适合修改,实际中网盘、云盘内容是不允许修改的,只能删了重新上传,它们都是Hadoop实现的。HDFS适合一次写入,多次读取的场景。对于上传到HDFS上的文件,不支持修改文件。Hadoop2.0虽然支持了文件的追加功能,但不建议对HDFS上的文件进行修改。因为效率低下。不支持用户的并行写:同一时间内,只能有一个用户执行写操作

延伸阅读:

什么是hdfs?

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。

HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。

文章标题:hdfs有哪些缺点,发布者:小编,转载请注明出处:https://worktile.com/kb/p/35277

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小编小编站长
上一篇 2023年1月11日 下午10:00
下一篇 2023年1月11日 下午10:02

相关推荐

  • 怎么把python爬到的数据进行数据清洗

    数据清洗的方法:一、数据预处理;二、数据去重;三、数据过滤;四、数据转换;五、数据清洗;六、数据保存。在进行数据清洗之前,我们需要对爬取到的数据进行预处理。这包括对数据进行去重、排序、过滤和转换等操作。常用的数据预处理库包括Pandas和NumPy等。 一、数据预处理 在进行数据清洗之前,我们需要对…

    2023年5月31日
    27100
  • wps企业版和个人版有什么区别

    wps企业版和个人版的区别有:1、授权不同;2、服务不同;3、费用不同。授权不同是指WPS企业版针对群体是企业单位,可以进行批量授权和场地授权,个人版针对群体是个人用户,不可以进行批量授权和场地授权。 一、WPS企业版与个人版的区别 1、授权不同 企业版针对群体是企业单位,可以进行批量授权和场地授权…

    2023年3月21日
    3.5K00
  • GAN和DCGAN有什么区别

    二者的主要区别包括:1、基础架构;2、网络结构;3、训练稳定性;4、生成效果;5、应用领域;6、模型复杂性。其中,基础架构的差异主要在于GAN使用的是基本的生成器和判别器结构,而DCGAN则加入了卷积层进行优化。 1、基础架构 GAN:生成对抗网络由两部分组成,一个是生成器(Generator),另…

    2023年7月30日
    19300
  • 如何在团队中建立高效的沟通机制

    在团队中建立高效的沟通机制至关重要,因为它对提高团队协作和工作效率有着直接影响。本文主要探讨了1、明确沟通目标、2、建立常规沟通渠道、3、优化沟通流程、4、使用有效的沟通工具、5、培养良好的沟通文化等五个核心观点来建立高效的团队沟通机制。通过这些措施能够确保信息的准确传递,提升团队成员之间的互相理解…

    2023年11月28日
    1700
  • 总承包管理包括哪些项目

    总承包管理包括:一、项目前期准备;二、设计阶段;三、施工阶段;四、竣工验收阶段;五、后期服务阶段。总承包管理在项目前期准备阶段负责参与项目的招标和竞标过程,制定施工方案和预算;协助业主完成项目审批和手续。 一、项目前期准备 总承包管理在项目前期准备阶段负责参与项目的招标和竞标过程,制定施工方案和预算…

    2023年4月30日
    18200
  • 运行chkdsk工具是什么意思

    运行chkdsk工具意味着在Windows操作系统中启动一个用于检查磁盘的完整性和查找磁盘错误的程序。它可以帮助诊断和修复文件系统和物理磁盘错误。主要区别或核心观点包括1、chkdsk工具的定义;2、如何运行chkdsk工具;3、chkdsk工具的功能和优势;4、可能的风险和警告。我们还会深入探讨如…

    2023年8月8日
    15400
  • jira工具有哪些企业售卖

    Jira工具销售主要涉及的企业包括:1、Atlassian公司;2、Adaptavist;3、Xpand IT;4、Tempo;5、Zephyr;6、BigPicture。Atlassian公司是Jira的开发者,提供Jira软件的购买与服务,其中Jira Software用于敏捷项目管理;Jira…

    2023年7月11日
    16100
  • Linux并发和竞态问题是什么

    并发是指多个执行任务同时、并行被执行;竞态的字面意思是竞争,并发的执行单元对共享资源(硬件资源和软件上的全局变量,静态变量等)的访问容易发生竞态。在早期的Linux内核中,并发源相对较少。内核不支持对称多处理器(SMP)系统,唯一导致并发问题的原因是中断。 一、什么是并发和竞态 在早期的Linux内…

    2023年5月10日
    4500
  • 块存储和对象存储区别是什么

    对象存储和块存储的区别在于,对象存储要比块存储的接口更简单,一个对象我们可以看成一个文件,只能全写全读,通常以大文件为主,要求足够的IO带宽。块存储的IO特点与传统的硬盘是一致的,一个硬盘应该是能面向通用需求的,即能应付大文件读写,也能处理好小文件读写。 一、区别 1、对象存储要比块存储的接口更简单…

    2023年2月13日
    22500
  • 为什么连接不上mysql数据库

    连接不上mysql数据库可能有多种原因,包括:1.服务器地址或端口配置错误;2.用户权限或认证问题;3.数据库服务未启动或崩溃;4.防火墙或安全设置限制连接;5.网络问题。服务器地址或端口配置错误是常见的问题,需要检查连接字符串中的IP地址、端口号和凭据是否正确。 1.服务器地址或端口配置错误 服务…

    2023年7月11日
    43700

发表回复

登录后才能评论
站长微信
站长微信
电话联系

400-800-1024

工作日9:30-21:00在线

分享本页
返回顶部