在大数据领域,如何区别“数据湖”和“数据河”的概念

区别是:数据湖是按存储原始数据格式的数据存储,所有的实时数据和批量数据,都汇总到数据湖当中,然后从湖中取相关数据用于机器学习或者数据分析。数据河就是在由源头产生清晰干净的有效数据,通过各个河流网流向各个数据消费端的架构。

数据湖

数据湖是按存储原始数据格式的数据存储,旨在任何数据可以以最原始的形态储存,可是结构化或者非结构化数据,以确保数据在使用时可以不丢失任何细节,一般以Hadoop系统存储为比较典型的解决方案,所有的实时数据和批量数据,都汇总到数据湖当中,然后从湖中取相关数据用于机器学习或者数据分析。

数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。

数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。

数据河

数据河(Data River)就是在由源头产生清晰干净的有效数据(去ETL化,数据源头业务就像生态水源一样,不让污水流下去),通过各个河流网,流向各个数据消费端的架构。

数据河的特点如下:

• 源头有效:根据大数据IOTA架构,数据河在产生的源头就需要加工为有效的CDM数据(Common Data Model),参见文章《Lambda架构已死,去ETL化的IOTA才是未来》,数据通过数据耕种方和使用方直接在数据产生源头通过Edge SDK 进行清洗。

• 全局少数:多条数据河的差别在于CDM模型的不同,而不是使用者的使用方法不同,避免同样数据源被多次加工失去数据少数性。

• 高低流向:数据河一定是要有高低流向,即每条河流都需要有确定的使用者,而不是漫无目的的洪水,数据源头的质量是通过环境治理由使用者定义的,而不是由产生者,产生者只关注数据是真实即可。

• 湖中暂存:数据河一定是基于IOTA架构的实时数据,在CDM模型的支持下,实时流向使用者。数据河在数据湖中只是暂存,一定会流向其他河流和分支,而不会沉积在数据湖中,否则会产生数据淤泥,最终成为数据沼泽。最终一个企业内部由多条河流组成一个公司内部的数据生态

延伸阅读:

什么是大数据?

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

文章标题:在大数据领域,如何区别“数据湖”和“数据河”的概念,发布者:小编,转载请注明出处:https://worktile.com/kb/p/39028

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小编小编认证作者
上一篇 2023年2月21日 上午2:12
下一篇 2023年2月21日 上午2:14

相关推荐

  • 编程课适合什么样的家庭

    编程课适合那些重视孩子未来技能发展、注重创新思维培养,以及愿意为孩子提供多元化教育资源的家庭。对于这样的家庭来说,引导孩子学习编程不仅能够增强其逻辑思维能力,还能在未来科技驱动的社会中占据有利地位。 编程课为孩子们打开了一个充满无限可能性的世界。这一教育资源能够让孩子们从小培养科学思维,学习如何通过…

    2024年4月27日
    3000
  • 步骤指南:使用敏捷开发提升研发效能

    使用敏捷开发提升研发效能的步骤指南:1、理解敏捷开发的核心价值观;2、选择合适的敏捷框架;3、建立跨功能团队;4、实施迭代和增量开发;5、持续规划和调整;6、有效的需求管理;7、持续集成和测试;8、定期反馈和评审;9、强调技术卓越;10、加强沟通和协作;11、聚焦客户价值;12、培训和指导;13、测量和改进。

    2023年11月11日
    37600
  • 什么是战略绩效管理

    战略性绩效管理是指对企业的长期战略制定实施过程及其结果采取一定的方法进行考核评价,并辅以相应激励机制的一种管理制度,以战略为导向的绩效管理系统, 并促使企业在计划、组织、控制等所有管理活动中全方位的发生联系并适时进行监控的体系。 一、什么是战略绩效管理 战略性绩效管理是指对企业的长期战略制定实施过程…

    2023年5月5日
    1.5K00
  • Scrum中的迭代回顾如何进行

    在Scrum框架下,迭代回顾(Sprint Retrospective)是必不可少的环节,旨在提升团队的工作效率和项目质量。迭代回顾通常在每个Sprint结束时进行,参与者包括Scrum团队全体成员。该过程涉及回顾上一个Sprint中的工作,识别改善机会、商讨解决方案、并制定实施计划。回顾会议应集中…

    2023年12月11日
    34600
  • 常用的软件项目管理工具有哪些

    常用的软件项目管理工具有:1、PingCode;2、Worktile;3、Jira;4、Microsoft Project;5、Mantis BT ;6、禅道项目管理软件;7、ASANA;8、Teambition。其中,PingCode 是一款覆盖研发全生命周期的项目管理系统。 一、PingCode…

    2023年4月19日
    51500
  • 编程分为什么和什么

    编程主要分为面向过程编程和面向对象编程。其中,面向对象编程(OOP),通过把数据及这些数据上的操作包装在一起,将现实世界中的事物转化为对象,这种方式能够增强程序的复用性、灵活性和扩展性。在OOP中,类和对象是基本概念,类定义了属性和行为,而对象则是类的实例。许多程序设计的语言如Java、C++和Py…

    2024年5月2日
    500
  • 大厂为什么用devops

    ### 大厂为什么采用 DevOps 在探讨大型企业(以下称之为“大厂”)之所以采纳 DevOps 做法的原因之时,便是需了解此种模式如何有效应对当今软件开发与运维领域中遇到的挑战。1、加快市场响应速度、2、提升产品质量、3、增强团队协作效率三方面构成了核心动因,尤其对第一个理由进行深入阐述显尽要义…

    2024年3月26日
    7700
  • 数据分析的未来趋势有哪些

    未来,数据分析将被塑造为一个充满多样性与革新的领域,主导这一进程的核心趋势包括1、人工智能与机器学习集成、2、自动化分析技术、3、边缘计算的兴起、4、数据即服务(DaaS)、5、数据隐私和安全、6、多云和混合云策略、7、智能可视化工具以及8、增强分析。这些核心观点不仅涵盖技术层面的创新,还包含对数据…

    2023年12月14日
    58800
  • ug编程程序是什么样的

    摘要 UG编程程序是一款先进的计算机辅助设计和计算机辅助制造(CAD/CAM)软件,广泛用于制造行业中产品的设计与加工。它集成了多种功能,如3D建模、数控编程、复杂曲面处理等。尤其在数控编程领域,UG提供了强大的工具和灵活的策略以优化加工过程,包括高速加工、五轴加工等先进技术。 一、 UG编程程序概…

    2024年4月28日
    3100
  • 不同编程语言代表什么意思

    不同编程语言在计算机科学中担任各自独特的角色:1、工具性语言,2、高级语言,3、系统语言,4、领域特定语言。 以工具性语言为例,这些编程语言如Python、Ruby或者Shell脚本,被设计为易于编写和快速执行,常常用于自动化脚本、快速原型设计及任务自动化。比如,Python因其简洁的语法和强大的标…

    2024年4月27日
    3600

发表回复

登录后才能评论
注册PingCode 在线客服
站长微信
站长微信
电话联系

400-800-1024

工作日9:30-21:00在线

分享本页
返回顶部