写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

一、从数据类型考虑
Hadoop在处理非结构化和半结构化数据上具备优势,尤其适合海量数据批处理等应用要求。

MPP适合替代现有关系数据机构下的大数据处理,具有较高的效率。

二、从应用场景考虑
MPP适合多维度数据自助分析、数据集市等;

Hadoop适合海量数据存储查询、批量数据ETL、非机构化数据分析(日志分析、文本分析)等。

补充

MPP DB与Hadoop都是将运算分布到节点中独立运算后进行结果合并(分布式计算),但由于依据的理论和采用的技术路线不同而有各自的优缺点和适用范围。

两种技术以及传统数据库技术的对比

特征HadoopMPP DB传统数据库
平台开放性
运维负责度
扩展能力
拥有成本
系统和数据管理成本
应用开发维护成本
SQL支持中(低)
数据规模PB级别部分PBTB级别
计算性能对非关系型操作效率高对关系型操作效率高对关系型操作效率中
数据结构机构化、半结构化和非机构化数据结构化数据结构化数据

未来大数据存储与处理趋势

MPP DB+Hadoop混搭使用

用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事物支持能力;

用Hadoop实现半结构化、非结构化数据处理。这样可以同时满足结构化、半结构化和非结构化数据的高效处理需求。

Q.E.D.


大数据开发工程师,精通 Spark,擅长 Java 和 Scala