数据湖是什么意思
数据湖是指表面上,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。
一、 数据湖价值
数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。
二、 数据湖的隐忧
数据湖架构面向多数据源的信息存储,包括物联网在内。大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户。但数据湖架构可不仅仅是一个巨大的磁盘而已。
数据湖的数据持久性和安全却是需要优先考虑的因素。很多选择都能交付一个合理的成本,但并非所有都能满足数据湖的长期存储需求。挑战就在于数据湖中很多数据永远不会删除。这种数据的价值在于它要拿来分析以及和年复一年的数据进行比对,这将抵消其容量成本。
在数据湖架构中,信息安全作为另一项挑战往往被人忽视。相比于其它,这种类型的存储安全要更加重要。数据湖架构从定义上看是将所有的鸡蛋放在一个篮子中。而如果其中一个存储库的安全被破坏,那么未知方将可能访问所有数据。很多数据都以易于读取的格式存储,像是JPEG、PDF文件--如果你的数据湖架构不够安全,那么信息损失很容易。
三、 数据湖的价值
数据湖对企业的价值主要体现在:
1、保存原始数据,企业数据保真
数据仓库保存的数据都是结构化处理后的数据,而非原始数据,且无用数据不会被纳入。但是目前看来"无用"的数据是否真的没有用处呢?其他格式的数据是否没有价值?有用无用依赖的是我们业务人员的经验来判断的,这明显不符合大数据的原则,而数据湖能够保存原始数据,同时过程数据会不断的完善、演化,以满足业务的需要,保证用户能获取到各个阶段的数据。
2、打破数据孤岛,实现数据互通
有的企业先后上线了ERP系统、CRM系统、OA系统等,企业的数据分别存储在这些系统中,数据之间互不相通,而数据湖可以容纳所有系统的数据,同时也能够充分利用企业外部数据,打破数据孤岛,整合企业全貌数据。
3、支持实时数据,提高运营效率
物联网 (IoT) 引入了更多方式来收集有关制造等流程的数据,包括来自互联网连接设备的实时数据。数据湖支持对实时和高速数据流执行 ETL 功能,并对机器生成的 IoT 数据进行分析,从而能够协助企业发现降低运营成本、提高运营效率的方法。
4、实现数据挖掘,驱动价值增长
数据湖统一管理所有数据,通过数据湖能够轻松实现对数据的搜索、查询、计算和访问,结合机器学习和深度学习能够为企业构建更多优化后的运营模型,进行数据挖掘和数据分析。数据湖还会跟踪和确认数据血统,这有助于确保数据值得信任,还会快速生成可用于数据驱动决策的 BI,提供企业级数据服务,驱动企业的价值增长。