首先我们需要将带标签的数据集分割成两部分:训练集和测试集,其中训练数据集负责计算经验损失和学习模型,而测试数据集负责计算测试效果,评估泛化性能[10]。我们用训练数据集通过线性函数最小化经验损失学到了线性函数,然后将线性函数用来预测测试数据集,最后计算测试误差作为泛化误差的近似。在我们有信心启动模型之前,我们都不要触碰测试集。
把测试集化分为5层,从每层抽取相应比例的数据,并进行测试。比较分层抽样和随机抽样,测试集的样本比例分布和完整数据集的差异,如表3所示。从表3中可以看出,随机抽样的误差大于分层抽样的误差。由于随机抽样在面对小样本时容易出现抽样误差,因此使用分层对数据进行抽样的效果较好。