二、文本选取与主题聚类
第一次在本专业上真正地进行实践,以一名职场人的身份与社会进行接触。第一、二季关注的是律师行业,展示的内容是实习生见委托人、进行谈判的过程,而第三季讲述的是医生行业,呈现的是实习生初次上手术台的内容。
首先将视频转化为文本,前期对视频文本数据进行清洗,预处理后,通过已有词典和自建停用词库对文本进行Jieba分词,并提取1000个特征词汇。接着对视频文本建立LDA主题模型,在进行主题模型分析之前,通过主题困惑确定最优主题数。当主题为3时,主题困惑度表现最好。
将LDA的关键词提取为工作专业度、人际关系和态度情绪问题三个层面,从此构建实习生画像。以单人竞争或者小组竞争方式,带教老师打分;同时还有观察团对实习生的行为进行评价,并引申出当下的热门话题。从这三个主题可见,该节目主要是以实习生的身份,考察大学生知识掌握能力,工作过程中人际沟通能力和应对压力等负面情绪的调整能力,这三个能力能够全面评价大学生的综合素质。