写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

1. 执行机制: 
    Mapreduce是一个数据流模型,每个任务只对输入数据进行处理,产生的输出数据作为另一个任务的输入数据,并行任务之间独立地进行,串行任务之间以磁盘和数据复制作为交换介质和接口。
    而BSP是一个状态模型,各个子任务在本地的子图数据上执行计算、通信、修改图的状态等操作,并行任务之间通过消息通信交流中间计算结果,不需要像MapReduce那样对全体数据进行复制。
2. 迭代处理: 
    MapReduce模型理论上需要连续启动若干作业才能完成图的迭代处理,相邻作业之间通过分布式文件系统交换全部数据。
    而BSP模型仅启动一个作业,利用多个超步就可以完成迭代处理,两次迭代之间通过消息传递中间计算结果。由于减少了作业启动、调度开销和磁盘存取开销, BSP模型的迭代执行效率较高。
3. 数据分割:
    基于BSP的图处理模型,需要对加载后的图数据进行一次再分布的过程,以确定消息通信时的路由地址。
    例如,在各任务并行加载数据的过程中,根据一定的映射策略,将读人的数据重新分发到对应的计算任务上(通常存放在内存中),既有磁盘IO又有网络通信,开销很大。
    但是一个BSP作业仅需一次数据分割,在之后的迭代计算过程中,除了消息通信外,无须进行数据的迁移。
    
    而基于MapReduce的图处理模型,一般情况下,不需要专门的数据分割处理。但是Map阶段和Reduce阶段存在中间结果的Shuffle过程,增加了磁盘IO和网络通信开销。
    
4. MapReduce的设计初衷是解决大规模、非实时数据处理问题。“大规模”决定了数据有局部性特性可利用,从而可以划分、可以批处理;“非实时”代表响应时间较长,有充分的时间执行程序。
   而BSP模型在实时处理方面有优异的表现。
   这是二者最大的区別。

补充

BSP

详情请见我的另一篇博客——并行计算模型有哪些?

Q.E.D.


Apache Spark Contributor