写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

1

挑战

如果读者正在使用免费的开源技术来构建数据湖,那么跟上这些技术发展的步伐可能是一项颇具挑战性和艰巨性的任务。

措施

如果业务方积极采用数据湖,可考虑使用如 Cloudera、 Hortonworks等商业产品

2

挑战

如果为达到预期的结构,数据湖使用了大量的技术,那么跟上这些技术及其依赖的其他技术的发展速度可能再次成为挑战。

措施

与前面的措施类似,采用具有商业支持的技术平台可以作为缓解这类的问题的方案

3

挑战

曾经,在大数据领域招聘技术熟练的人员极具挑战性。不过现在情况已经有所改善,然而,寻找真正熟练掌握实际操作技术的人员,来维护和管理数据湖中多样化的技术仍然困难重重。

措施

可以考虑与企业建立一个卓越中心(Centre of Excellence,CoE),并制订计划让该团队及时获得更多资源,不断成长。

4

挑战

构成数据湖的各种组件持续独立演变,数据湖内部、外部的集成变得非常具有挑战性。

措施

可以考虑引入一个中间层来应对数据湖内部和外部应用程序集成的挑战。该层隐藏了详细信息,并提供了统一的方法让数据流入数据湖。

5

挑战

由于企业应用程序的多样化,将数据集成到数据湖将是一大挑战。如果企业中的应用程序是内部应用程序和供应商应用程序的结合体,那么这个问题会变得更加棘手因为这些应用程序是用不同语言编写的,也具有不同的数据摄取能力。

措施

如果应用程序能够以非常简单的方式获取数据,比如,对于Java应用程序(特别是内部构建的),则在模型中添加一个Java注解,这样就可以自动将数据摄取到数据湖中,那么将应用程序数据摄取到数据湖就变得相对容易。

6

挑战

对常见的数据存储来说,数据授权(安全性和隐私性)将是一个大问题

措施

为数据和所有数据湖组件提供足够的安全性,严格控制各种用户的权限。这样可能会限制数据分析,这取决于数据湖中的数据以及访问这些数据的人员。

7

挑战

即使数据源没有问题,通常情况下数据质量仍可能存在问题。数据治理也是一个挑战。需要领域知识加持才能确保进入数据湖中的数据质量最高。

措施

可以加入一个流程,在数据获取过程中嵌入适当的数据治理框架,并及时检査数据质量。在一段时间内将对数据质量的把控上升到组织文化的高度。

8

挑战

通常,大型组织缺乏跨所有部门的信息/业务架构。正因为如此,基于原始数据构建适当的数据模型非常困难。这将给T部门带来额外开销,因为需要创建不断变化的数据模型,以供业务用户进行各种分析。

措施

使用数据湖开始构建信息/业务架构,并使用新约定的数据模型在数据湖中进行数据建模。

9

挑战

很难实现完全的自动化,这对系统维护构成了挑战。可能会导致高昂的维护成本,但一般不会超过数据湖所带来的收益。

措施

先致力于实现小范围自动化并在一段时间内不断推动其全面自动化。

Q.E.D.


Apache Spark Contributor