写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

企业数据指的是企业内部员工及其合作伙伴跨越不同部门、不同地点而共享,跨越不同大洲而传播的数据。

补充

企业数据和数据湖的相关性

企业数据对企业具有很高的价值,包括财务数据、业务数据、员工个人数据等,企业花费了大量时间和金钱来保证数据在各方面的安全和质量。

然而,所谓的企业数据从当前状态变得日渐陈旧,虽然以某种形式进行存储,但是难以进行分析和检索。

这些数据有着重大的意义,企业需要有一个专门的地方来分析它,以挖掘各种潜在的商机,这就是数据湖产生的原因。

企业数据主要分为3大类

  1. 主数据(master data),指的是详细描述企业内部主要实体的数据。通过观察主数据可以了解企业涉及的业务。这些数据通常由不同部门管理和掌握。其他类别的数据,需要利用主数据来产生价值。
  2. 事务数据(transaction data),指的是各种应用程序(内部或外部)在处理企业内的各种业务流程时产生的数据。事务数据也包括人员相关的数据,虽然某些时候并不属于业务数据,但这部分数据也非常重要。分析这部分数据,可以帮助企业优化业务这些数据也依赖于主数据,并经常引用主数据。
  3. 分析数据(analytic data),实际上指的是来源于前两类数据的数据。这部分数据是对企业中的各种实体(主数据)的深入分析,同时结合事务数据,为企业提供积极的建议,经过必要的调研之后,这些建议可以被企业采纳。

大多数企业都有管理这几类数据的机制,通常叫作企业数据管理(Enterprise Data Management,EDM)。

EDM

EDM强调数据的精确性、粒度和含义,关注数据内容如何整合到业务应用程序中,以及数据如何从一个业务流程转移到另一个业务流程。——维基百科

正如维基百科的定义中明确指出的那样,EDM是定义了企业数据如何存储、存储的位置以及使用哪些技术来存储和检索这类数据的一整套策略。

此类数据价值巨大,必须处于正确的控制下以保证安全,并且需要以明确的方式进行掌握和管理。

EDM还定义了数据如何与内部和外部的应用程序进行通信。

此外,数据交换的相关政策和流程也必须明确从前文来看,对企业来说实现EDM非常容易,但实际上却是困难重重。

一个企业有多个部门,每个部门都产生数据;基于这些部门的重要性,它们所产生的数据与整个组织密切相关。

由于彼此处境不同,不同数据的所有者在EDM中有着不同的利益点,这会产生冲突,从而给企业带来危害。这就需要在EDM中制定各种政策和程序来明确数据的所有权。

Q.E.D.


Apache Spark Contributor