写在前面

本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系

解答

在这里插入图片描述

Apache Hadoop 是 Doug Cutting 依据谷歌的三驾马车论文而创建的大数据框架。

狭义上的 Hadoop 指的是Apache Hadoop HDFS,Apache Hadoop MapReduce,Apache Hadoop YARN组成的集数据存储、计算和资源管理调度于一体的综合性大数据框架。
广义上的 Hadoop 指的是以 Apache Hadoop 为核心的技术生态体系,包括 Hive,HBase,Flume,Sqoop,Azkaban等底层使用 MapReduce 进行数据处理的框架,
甚至还包括 Spark,Flink 这些底层自己实现数据处理逻辑的框架,原则上来讲,只要支持 HDFS 存储或者使用 MR 进行数据处理或者使用 YARN 进行资源管理调度的都属于 Hadoop 技术体系的范畴。

大数据因 Hadoop 而起,也因 Hadoop 而荣。
Apache Hadoop 是事实上的大数据技术标准,很多人用 Hadoop技术体系 来指代 大数据技术 就显而易见,
上一篇 下一篇