写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

数据湖中数据生命周期可分为四个阶段:
1. 数据获取:数据可能以不同形式存在,可能需要不同的机制来获取;它们尽量获取最原始的数据,数据在获取过程中成为数据湖的一部分
2. 数据处理:获取到的数据需要进一步进行处理,从而得到有用的信息,如商品推荐、业务洞察力等,此时可能会用到机器学习技术;数据可能会被转化为等价的模型,但同时会保留原始数据
3. 数据分析:数据会进一步被分析,以便按需访问数据分析需求受信息访问模式驱动
4. 数据存储:数据分析结果需要存储在合适的数据存储系统中;数据湖中的数据存储系统的选择依赖具体的数据服务需求

Q.E.D.


大数据开发工程师,精通 Spark,擅长 Java 和 Scala