核心提示:1.数据清洗与特征选择 本研究数据采集是以杭州师范大学教育应用研究所开发的 Istudy 平台(www.zjcai.com)的在线 学习数据为研究对象,选取 2021 年下
1.数据清洗与特征选择 本研究数据采集是以杭州师范大学教育应用研究所开发的 Istudy 平台(www.zjcai.com)的在线 学习数据为研究对象,选取 2021 年下半学期 216 位学生大学计算机基础课程的后台学生行为数据和成 绩资料.本文首先对目标数据集的异常数据进行清洗,对异常数据如缺考和退课的学生数据进行清洗后, 在正常数据集中选取了 200 位学生行为数据进行实验.利用 Python 中的第三方开源库通过随机森林算 法得到对数据集的特征重要性评分.行为特征的重要性得分越高,说明该行为特征在构建决策树模型的 过程中被划分的次数越多.经实验筛选出重要性比较高的前六个变量:在线时长、签到率、视频点击量、 观看视频时长、讨论区参与度、作业完成率六个关联度较高的行为特征.