1.筛选之前的准备工作
首先,考虑到同一行业的上市公司在财务指标的规模、变化趋势上相对一致;在衡量公司财务状况的时候往往是通过判断在同行业内指标的高低进行分析,因此本文采用按行业归一化的方法去除不同行业的影响。
其次,部分行业的上市公司数量较少,而样本数过少会导致统计特征不稳定,容易增加模型的过拟合,所以将样本数比较少的行业合并,归到“其他行业”。
再次,因为在采用机器学习算法做参数选择时,模型都未经过调参,如果将所有特征合在一起,模型偏向直接指标非常明显,这样容易造成后续模型训练时的过拟合问题。因此将特征按其定义方式划分为5种,分别进行包裹特征选择,以保证选择结果的多样性。具体的,按照量纲、数量级、定义方式分为五类指标:直接财务指标(222个)、比率指标(98个)、年度增长指标(16个)、股市指标(17个)和其它指标(10个),后面将对这五类指标依次进行特征选择,最后将选择出来的指标进行整合。