hdfs和hadoop的关系
HDFS是hadoop兼容最好的标准级文件系统。Hadoop是分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,而HDFS是一个分布式文件系统,是Hadoop中的一个核心部件,主要是对数据进行分布式储存和读取。
Hadoop
Hadoop是一个由Apache基金会所开发的,可靠的、可扩展的、用于分布式计算的分布式系统基础架构和开发开源软件。简单的说Hadoop软件库就是一个框架,通过这个框架你可以在计算机集群中对大规模的数据集进行分布式处理,可以理解成和操作系统的多线程并行有点像的一个东西。但是这个东西非常稳定,如果一个节点上的数据宕掉了还有神奇的机制可以保证数据备份在其他节点上,可以继续运行。
Hadoop架构核心包括:
- 分布式文件系统 HDFS(Hadoop Distributed File System)
- 分布式计算系统 MapReduce
- 分布式资源管理系统 YARN
HDFS是以分布式进行存储的文件系统,主要负责集群数据的存储和读取。是一个Master/Slave体系结构的分布式文件系统,HDFS实际上是运行在已有文件系统之上的一个文件系统,某种程度上你就理解成和你计算机的传统的文件系统差不多的一个东西就好了。同样的基本上面的Hadoop有什么特点HDFS就有这些特点。
HDFS
1. 存储超大文件:适合存储大量文件(PB,EB以上都是没问题的);适合存储大文件(单个文件大小一般都是 百MB以上了);文件数目适中。
2. 流式文件访问:文件**一次写入,多次读取的访问模式**;支持追加操作,但无法更改已写入数据。
3. 普通商用硬件即可:不要昂贵的硬件,相对廉价的商用硬件就可以实现HDFS存储;当系统中某台/某几台服务器故障的时候,系统仍可用并且能保持数据完整。
HDFS(Hadoop Distributed File System)是hadoop项目的核心子项目,是基于流数据模式访问和处理超大文件的需求而开发的。
HDFS的优点:
1) 处理百MB、设置数百TB大小的文件
2) 流式的访问数据,响应”一次写入、 多次读写”
3) 运行于廉价的商用集群上
HDFS的缺点:
1) 不适合低延迟数据访问
2) 无法高效存储大量小文件
3)不支持多用户写入及任意修改文件