写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

数据仓库适合使用MPP架构

补充

哪种服务器更加适应数据合库环境?这需要从数据仓库环境本身的负载特征入手。

众所周知,典型的数据仓库环境具有大量复杂的数据处理和综合分析,要求系统具有很高的I/O处理能力,并且存储系统需要提供足够的I/O带宽与之匹配。

而一个典型的OLTP系统则以联机事务处理为主,每次交易所涉及的数据不多.要求系统具有很高的事务处理能力,能够在单位时间里处理尽量多的交易。

显然,这两种应用环境的负载特征完全不同。

从NUMA架构来看.它可以在一台物理服务器内集成多个CPU,使系统具有较高的事务处理能力,但由于异地内存访问时延远长于本地内存访问,因此需要尽量减少不同CPU模块之间的数据交互。

显然,NUMA架构更适用于OLTP事务处理环境,当用于数据仓库环境时,由于大量复杂的数据处理必然导致大量的数据交互,将使CPU的利用率大大降低。

相对而言,MPP服务器架构的并行处理能力更优越,更适合复杂的数据综合分析与处理环境。

当然,它需要借助支持MPP技术的关系数据库系统来屏蔽节点之间负载平衡与调度的复杂性。

另外,这种并行处理能力也与节点互联网络有很大的关系。

显然,适应数据仓库环境的MPP服务器,其节点互联网络的io性能应该非常突出,这样才能充分发挥整个系统的性能。

Q.E.D.


Apache Spark Contributor