一种基于Bagging和D-S的并行多分类器融合方法

摘要：为解决多分类器融合过程中时间开销大的问题，采用D-S改进Bagging方法并结合MapReduce技术，提出了一种基于Bagging 和 D-S的并行多分类器融合方法（A Parallelized Multi-Classifier Fusion Approach Based on Bagging and D-S, PMCF-BDS）。该方法基于MapReduce并行计算架构,在Map阶段，选择分类效果较好的基分类器；在Reduce阶段，从所选的基分类器中选择差异性较大的基分类器，然后采用D-S证据理论融合被选的基分类器。实验结果表明，在执行效率方面，与单机环境相比，集群环境下方法的执行效率有所提高；在分类准确率方面，与Bagging算法相比，PMCF-BDS在不同的基分类器数目下的分类准确率都高于Bagging算法。
1 引言
近年来，在高性能的分类系统中，多分类器系统被认为是一种有效的方式。多分类器系统[1]是指把多个分类器的输出结果通过一定的组合方法进行融合，从而识别目标，这个融合过程称为多分类器融合。目前，常用的融合策略有简单的多数投票[2]、加权表决[3]、模糊积分[4]和D-S证据理论[1]等，实验结果表明，上述方法在一定程度上提高了分类准确率。然而，目前的多分器融合方法在单一节点下进行，处理时间开销较大，执行效率不高。
MapReduce[5]是一种有效的处理海量数据的并行编程模型，它可以屏蔽底层的实现细节，有效的降低并行编程的难度，目前已经被普遍接受。该技术为多分类器融合方法的执行效率提供了新方法。因此，本文借助并行处理技术MapReduce,提出一种基于Bagging和D-S的并行多分类器融合方法。该方法将发挥MapReduce在海量数据处理方面的优势，为提升多分类器融合的效率提供新思路和理论方法依据。
2 相关工作
随着融合数据的不断增加，融合计算耗时非常大，因此很难进行快速、实时的融合，研究者们纷纷采用并行处理方法来解决此问题，其中在远程感知图像领域的应用最为广泛。比如，基于小波变换的并行融合算法[6]、基于IHS转换的并行融合方法[7]等，实验结果表明，这些并行融合算法具有良好的并行性能，能有效地提高图像融合速度。
此外，并行处理技术MapReduce技术也被研究学者们用于解决海量数据的融合问题。文献[8]提出了一种并行的实现基于图的信息融合算法，采用了基于MapReduce的技术减少了时间开销和内存加载，并且具有较好的扩展性。因此本文将MapReduce技术应用于多分类器融合领域，在提高准确率的同时也提高执行效率。
作者：陶晓玲亢蕊楠