(一)因子预选取
为探究基于文本舆情的股票投资策略选择,选取中证800指数成分股作为本文股票样本,并对样本进行剔除,最终选取有效股票数为468只,时间选自2019年7月1日至2020年7月10日,共251天。以周为单位进行短线的投资策略。以2019年7月1日至2019年9月31日为训练期,2019年10月8日至2020年7月10日为回测期。基于文本舆情的股票投资策略中,除了需加入本文所构造的文本舆情因子外,还应加入其他有效因子。如质量因子、行业因子、技术因子、成长因子等10种类型因子,共计216个,因子来源于聚宽平台,所有因子值以后复权方法计算而得。数据选取2019年7月1日至2020年7月10日的日数据。