写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。

数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据还可能有多种满足特定内部模型格式的数据副本。

因此,数据湖中被处理的数据可能是任意类型的信息,从结构化数据到完全非结构化数据。

企业对数据湖寄予厚望,希望它能帮助用户快速获取有用信息,并能将这些信息用于数据分析和机器学习算法,以获得与企业运行相关的洞察力。

补充

企业现状

企业数据当前的状态可以总结为以下几点:

传统DW(Data Warehouse)/BI(Business Intelligence)

  1. 使用ETL清洗来自生产业务应用的数据。
  2. 早于一定时间的数据会转移到另外的存储系统(如磁带)中,但是很难对这部分数据进行检索。

缺陷

  1. 数据仓库中保存的是清洗后的生产数据的子集;
  2. 在数据仓库中添加任何数据元素都需要付出代价;
  3. 数据仓库中保存的是全量数据的一个子集,其余数据会转存到另外的持久存储系统中去。
  4. 通常分析速度较慢,即使对查询做了一定程度的优化。

大数据孤岛

一些部门在建设大数据时采取了正确的措施。但是部门间通常不会互相协作,这些大数据平台就成了孤岛,并没有真正给企业带来价值。

缺陷

  1. 大数据平台的孤立性再次限制了分析师,使得分析师们无法跨部门整合和査询数据。
  2. 需要大量资金来构建、维护、管理这些数据孤岛,时间一长就难以为继。

大量非连接应用

在企业内部和云服务中部署大量应用程序。 除了产生结构化数据,应用程序也产生非结构化数据。

缺陷

  1. 互相没有通信。
  2. 即使有通信,数据科学家们既不能有效地利用这些数据,也不能对企业进行有益的改进。
  3. 各个业务应用在多个方面重复使用各种技术。

数据湖的必然性

并不是说投资构建数据湖是解决上述所有缺陷的“银弹”。但是这个方向一定是正确的,企业至少应该花时间去思考是否确实需要数据湖,如果答案是肯定的,就不要过多考虑,直接着手去构建。
构建数据湖是企业的一项战略级决策,在构建时需要所有相关人员的认可与支持,而且需要高管层投入精力关注这个项目。
基于数据湖,企业一定能找到改进业务流程的方法。 它能让高管人员更深入地了解业务,同时也能提升决策的成功率。

在过去的四五十年里,企业的组织形态发生了翻天覆地的变化,在企业漫长而又稳健的演化过程中,它们发现了各种通过在经营领域增加IT/软件系统来改进运营的途径和方法。
当企业成熟度发展到另一个阶段时,也会慢慢导致另外一个问题:系统之间互为孤岛,彼此之间很难交互。
随着企业的优化目标从局部优化转向全局优化,它们一直在利用一些新技术,如大数据技术,以找到方法和手段将数据从不同的IT系统汇集到一起,并进行进一步融合,以找到更好的方式来提高企业经营效率和有效性。这些方面的改进可以帮助企业节约成本。
所以说数据湖的诞生是必然的,它满足了企业这方面的需求。

Q.E.D.


大数据开发工程师,精通 Spark,擅长 Java 和 Scala