多因子选股模型构建和分析

三、多因子选股模型构建和分析
（一）数据选取说明
本文所使用的数据均来源于 Wind 数据库。为了保持模型的有效性和全面性，样本数据全部来源于 2013 年 4 月至 2020 年 4 月创业板指成分股的市场数据，其中包含了创业板牛市、熊市等多种市场行情。本文将利用 2013 年 4 月至 2018 年 4 月的数据进行因子的检验和筛选工作，利用 2018 年 4 月至 2020 年 4 月的数据对模型进行回测检验。为了剔除无效数据，本文对样本数据进行了如下处理：删除成分股新加入股票前 120 个交易日（6 个月）的交易数据，以排除此类股票价格异常对模型的影响；在给定时间范围内，历年创业板指成分股中数据缺失超过 1 年以上的个股不纳入样本。
（二）有效因子筛选
完成数据处理工作后，本文将综合运用打分法和回归法对因子进行初步筛选。因子有效性检验的具体方法如下：首先运用打分法。Piotroski（2000）提出的评分法是基于价值投资理论的，它分别依据不同的财务指标因子对个股进行打分，然后对个股得分进行加总，选择得分高的进行投资 [13]。参考该打分法，我们选取第 x 期数据，按任一因子对创业板指成分股进行排序，依照降序排序分组，每组 10 支个股，即将 100 支成分股分为 10 个组合。因为某些公布在年报的数据具有延时性，例如 2017 年的公司完整数据会在 2018 年年初的公司年报中披露，投资者根据 2017 年报中的公司信息构建投资策略，其操作影响的是 2018 年的股票市场，因此 2017 年的样本数据对应的是 2018 年该股票的收益率。