对于森林旅游、森林公园政策的收集应该本着全面而系统的原则,同时要兼顾进行预测所收集的其他特征数据的需要,故选择从2002年至2021年的数据进行收集。以森林旅游、森林公园作为关键字从各政府网站以及北大法宝、北大法意、法律之星等较为全面的数据库收集到属于该时间段的现行有效的政策法规文本共16292条,使用MAXQDA软件对其中含有森林旅游、森林公园关键字的段落进行编码,并使用MAXQDA自动编码出关键词所在段落占总文本长度计算得出文档覆盖率,作为主题建模数据库。
选择对历年的《中国林业和草原统计年鉴》中关于森林公园的指标使用熵值TOPSIS法进行特征提取和数据降维,将生成的评价指数作为衡量森林公园及旅游发展水平的特征数据,即发展水平。缺失值使用对结构化数据表现良好的XGBoost[10](极限梯度提升)回归补全缺失值,以避免插值法等方法中主观因素对于数据的影响。