在大数据领域,如何区别“数据湖”和“数据河”的概念

区别是:数据湖是按存储原始数据格式的数据存储,所有的实时数据和批量数据,都汇总到数据湖当中,然后从湖中取相关数据用于机器学习或者数据分析。数据河就是在由源头产生清晰干净的有效数据,通过各个河流网流向各个数据消费端的架构。

数据湖

数据湖是按存储原始数据格式的数据存储,旨在任何数据可以以最原始的形态储存,可是结构化或者非结构化数据,以确保数据在使用时可以不丢失任何细节,一般以Hadoop系统存储为比较典型的解决方案,所有的实时数据和批量数据,都汇总到数据湖当中,然后从湖中取相关数据用于机器学习或者数据分析。

数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。

数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。

数据河

数据河(Data River)就是在由源头产生清晰干净的有效数据(去ETL化,数据源头业务就像生态水源一样,不让污水流下去),通过各个河流网,流向各个数据消费端的架构。

数据河的特点如下:

• 源头有效:根据大数据IOTA架构,数据河在产生的源头就需要加工为有效的CDM数据(Common Data Model),参见文章《Lambda架构已死,去ETL化的IOTA才是未来》,数据通过数据耕种方和使用方直接在数据产生源头通过Edge SDK 进行清洗。

• 全局少数:多条数据河的差别在于CDM模型的不同,而不是使用者的使用方法不同,避免同样数据源被多次加工失去数据少数性。

• 高低流向:数据河一定是要有高低流向,即每条河流都需要有确定的使用者,而不是漫无目的的洪水,数据源头的质量是通过环境治理由使用者定义的,而不是由产生者,产生者只关注数据是真实即可。

• 湖中暂存:数据河一定是基于IOTA架构的实时数据,在CDM模型的支持下,实时流向使用者。数据河在数据湖中只是暂存,一定会流向其他河流和分支,而不会沉积在数据湖中,否则会产生数据淤泥,最终成为数据沼泽。最终一个企业内部由多条河流组成一个公司内部的数据生态

延伸阅读:

什么是大数据?

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

文章标题:在大数据领域,如何区别“数据湖”和“数据河”的概念,发布者:小编,转载请注明出处:https://worktile.com/kb/p/39028

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小编小编站长
上一篇 2023年2月21日 上午2:12
下一篇 2023年2月21日 上午2:14

相关推荐

  • c++引用的内存地址为什么就是变量的地址

    在C++中,引用的内存地址就是被引用变量的地址,因为引用只是一个别名,它不占用独立的内存空间。当我们定义一个引用时,编译器会将其视为被引用变量的另一个名称,并且引用和被引用变量共享相同的内存地址。这就是为什么C++引用的内存地址就是变量的地址的原因。 C++中的引用是一种特殊的指针类型,它允许我们通…

    2023年2月28日
    16100
  • oa办公系统用什么web框架

    可以用以下web框架:一、Bootstrap;二、Vue.js;三、React;四、Element;五、Ant Design。Bootstrap是Twitter开发的一个简洁、直观、强悍的前端框架,它提供了大量的CSS、JavaScript组件,适用于开发响应式布局、移动设备优先的Web项目。 一、…

    2023年5月28日
    12000
  • 什么是燃尽图

    燃尽图是用来展示随着时间减少,工作量剩余情况的图表,可以非常直观的把握项目的进度。燃尽图有4个重要组成元素,一般来说,纵轴表示剩余工作量,横轴表示时间,计划曲线代表理想情况下的任务进展曲线,实际曲线代表任务的实际进展曲线。

    2022年11月30日
    70600
  • 数据包,数据帧和ip数据报的区别

    区别是:数据包是TCP/IP协议通信传输中的数据单位,它包含发送者和接收者的地址信息。数据帧是数据链路层的协议数据单元,它包括三部分:帧头,数据部分,帧尾。IP数据报是TCP/IP协议定义的一个在因特网上传输的包,由首部和数据两部分组成。

    2023年2月15日
    62600
  • 项目收尾与总结报告的编写技巧

    项目收尾与总结报告的编写技巧包括:1、明确目的和读者;2、结构化的报告格式;3、采用客观和事实基础的语言;4、良好的视觉呈现;5、具体详实的内容;6、准确无误的数据;7、关注项目的不同方面;8、提供可行的建议;9、审核和修订;10、考虑文化和组织语境;11、透明和诚实;12、前瞻性;13、保持简洁;14、引入外部意见;15、使用附件。项目收尾与总结报告的编写,其核心在于传递信息的准确性、完整性和清晰性。

    2023年11月11日
    4500
  • 程序中的映射是什么

    在计算机程序中,映射(mapping)是一种将一个数据集合中的每个元素(称为“键”)都对应到另一个集合中的唯一元素(称为“值”)的方法。这种对应关系可以用键值对(key-value pair)的形式表示,其中每个键对应一个值。 在计算机程序中,映射(mapping)是一种将一个数据集合中的每个元素(…

    2023年2月28日
    71900
  • JAVA语言中引用和调用有区别吗

    区别是定义不同。引用是说变量保存内容的,变量保存了一堆内存数据,我们把变量叫做对数据的引用。调用指的是编写代码的时候使用定义好的代码块(函数/方法),这个叫做调用方法或调用函数,通常来说引用是在栈里建立的内存,该内存的内容是堆里的对象的地址。 两者定义 不要因为后面都有个”用&#8221…

    2023年2月12日
    22700
  • 计算机编程语言的原理是什么

    计算机编程语言的原理,包括:1、编程语言的组成,2、编程语言的分类;3、编程语言的执行过程。编程语言是由一系列的语法和语义规则组成的,这些规则用来定义编程语言中的各种元素,例如变量、数据类型、函数等等。编程语言的语法规则用来定义编程语言中的语法元素。 计算机编程语言是人与计算机交流的桥梁,它是人与计…

    2023年3月1日
    50900
  • 如何利用标签和元数据优化知识库搜索功能

    利用标签和元数据优化知识库搜索功能的方法:1、标签和元数据的定义;2、标签的合理使用;3、元数据的合理使用;4、优化搜索算法;5、数据可视化和分析;6、用户反馈机制;7、定期维护与更新;8、安全性和隐私保护;9、降低技术门槛。知识库的搜索功能对于用户快速定位信息至关重要,而要实现高效的搜索,除了良好的搜索引擎外,合理使用标签和元数据是至关重要的因素。

    2023年11月16日
    2900
  • 网站编辑软件有哪些

    网站编辑软件有:1、Notepad++;2、Frontpage;3、Dreamweaver;4、TinyMCE;5、Bluefish;6、Fresh HTML;7、KindEditor;8、WizHtmlEditor。Notepad++是在微软视窗环境之下的一个免费的代码网页编辑器。

    2023年1月6日
    35400

发表回复

登录后才能评论
站长微信
站长微信
电话联系

400-800-1024

工作日9:30-21:00在线

分享本页
返回顶部