一对余(One-vs-All, OVA)[7], 一对一(One-vs-One, OVO)[8]与分层分类(Hierarchical Classification, HC)[9]是当前常用的三种多分类转二分类策略, 其共同特点是在特征选择阶段与构建二分类器时采用了相同的训练样本. 对一个m类别(m≥3)的多分类问题, OVA策略经特征选择产生m套特征子集, 构建m个二分类器[10]. 其优点是构建的二分类器少, 且
每一个二分类器均充分利用了所有的训练样本; 缺点是构建的二分类器常存在训练集正负样本比例不均衡问题, 且对待测样本最终类别归属可能存在决策障碍[11]. OVO策略经特征选择产生m(m-1)/2套特征子集, 构建m(m-1)/2个二分类器. 其优点是构建的二分类器训练集正负样本较为均衡, 缺点是构建的二分类器未充分利用所有训练样本, 且决策障碍问题同样存在. HC采用由上而下的分解策略, 先基于所有训练样本构建第一个二分类器, 用以区分训练样本数最多的类别(最大类别)与其余类别(合成类别1). 某一待测样本若判为最大类别, 预测终止; 反之以合成类别1中训练样本构建第二个二分类器, 用以区分第二大类别与合成类别2(不包括最大类别与第二大类别). 重复该过程直至待测样本有确定的类别归属[12]. HC策略经特征选择产生m-1套特征子集, 构建m-1个二分类器. 其优点是构建的二分类器少, 对待测样本最终类别归属不存在决策障碍. 缺点是构建的二分类器训练集正负样本仍不均衡, 未充分利用所有训练样本, 且决策易过早终止.
无关与冗余特征降低预测精度且增加了模型复杂度, 最小冗余最大相关(Minimal Redundancy Maximal Relevance, mRMR)是目前应用较广泛的特征选择方法[13~15]. mRMR的主要缺陷是对分类问题当特征为连续型变量时, 其相关性测度F-score与冗余性测度Pearson相关系数绝对值|R|-score不可比, 且|R|-score不能反映非线性冗余; 同时, mRMR仅给出特征引入顺序, 需通过交叉验证终止特征引入, 较为耗时. 最大信息系数(Maximal Information Coefficient, MIC)能普适测度两个变量间的线性或非线性关联[16~18], 可作为mRMR中相关性与冗余性的统一测度.