2.2决策树模型的建立与分析
决策树是一种树形结构,在机器学习中,属于监督学习,监督学习是给定样本,每个样本都有其属性和类别,通过训练学习得到一个分类器,利用该分类器对其他数据进行预测分类。建立模型使用的是分类回归树(CART),当处理的数据变量为离散型时,会建立一种分类模型,从而解决分类预测问题,当处理的数据变量为连续型时,会建立一种回归模型,用于解决两个或两个以上变量之间互相的定量关系。
本此实验使用的建模工具是R语言中的rpart包,利用训练集数据拟合模型,返回模型参数,由此建立一个划分较细较为复杂的树模型,再根据交叉检验(Cross-Validation)的方法来估计不同“剪枝”条件下,各模型的误差,选择误差最小的树模型进行剪枝,从而得到一棵最优树。