在大数据领域，如何区别“数据湖”和“数据河”的概念

区别是：数据湖是按存储原始数据格式的数据存储，所有的实时数据和批量数据，都汇总到数据湖当中，然后从湖中取相关数据用于机器学习或者数据分析。数据河就是在由源头产生清晰干净的有效数据，通过各个河流网流向各个数据消费端的架构。

数据湖

数据湖是按存储原始数据格式的数据存储，旨在任何数据可以以最原始的形态储存，可是结构化或者非结构化数据，以确保数据在使用时可以不丢失任何细节，一般以Hadoop系统存储为比较典型的解决方案，所有的实时数据和批量数据，都汇总到数据湖当中，然后从湖中取相关数据用于机器学习或者数据分析。

数据湖或hub的概念最初是由大数据厂商提出的，表面上看，数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大，越需要各种不同种类的存储。最终，所有的企业数据都可以被认为是大数据，但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。

数据湖的一部分价值是把不同种类的数据汇聚到一起，另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的，并且可以为用户提供越来越多的实时分析。在商业智能（BI）和数据仓库还没有被淘汰的今天，大数据分析和大数据湖正在向更多类型的实时智能服务发展，这些实时的智能服务可以支持实时的决策制定。

数据河

数据河（Data River）就是在由源头产生清晰干净的有效数据（去ETL化，数据源头业务就像生态水源一样，不让污水流下去），通过各个河流网，流向各个数据消费端的架构。

数据河的特点如下：

• 源头有效：根据大数据IOTA架构，数据河在产生的源头就需要加工为有效的CDM数据（Common Data Model），参见文章《Lambda架构已死，去ETL化的IOTA才是未来》，数据通过数据耕种方和使用方直接在数据产生源头通过Edge SDK 进行清洗。

• 全局少数：多条数据河的差别在于CDM模型的不同，而不是使用者的使用方法不同，避免同样数据源被多次加工失去数据少数性。

• 高低流向：数据河一定是要有高低流向，即每条河流都需要有确定的使用者，而不是漫无目的的洪水，数据源头的质量是通过环境治理由使用者定义的，而不是由产生者，产生者只关注数据是真实即可。

• 湖中暂存：数据河一定是基于IOTA架构的实时数据，在CDM模型的支持下，实时流向使用者。数据河在数据湖中只是暂存，一定会流向其他河流和分支，而不会沉积在数据湖中，否则会产生数据淤泥，最终成为数据沼泽。最终一个企业内部由多条河流组成一个公司内部的数据生态

延伸阅读：

什么是大数据？

大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。

对于“大数据”（Big data）研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

50万+团队都在用的项目协作工具一个工具满足团队所需：任务、项目、文档、IM、目标、日历、甘特图、工时、审批以及更多，让工作更简单

智能化研发管理工具PingCode 是简单易用的新一代研发管理平台，让研发管理自动化、数据化、智能化，帮助企业提升研发效能

文章包含AI辅助创作：在大数据领域，如何区别“数据湖”和“数据河”的概念，发布者：小编，转载请注明出处：https://worktile.com/kb/p/39028

数据湖

数据河

什么是大数据？

发表回复