1.3 基于深度学习的诈骗网站识别
相较于基于规则的方法,基于机器学习的诈骗网站识别方法获得了更好的效果。但基于机器学习的方法依赖于对诈骗网站的特征工程,较为耗费时间,同时随着新的诈骗网站不断涌现,依赖于专家更新分析,提取新的特征,因而耗时耗力。而深度学习技术可以有效改善上述诈骗网站识别中遇到的问题,因此有关深度学习技术的诈骗网站识别研究,也逐渐广泛。例如杜锦波[7]、付顺顺[8]等人采用网页分类任务的思想看待诈骗网站识别目标,结合了集成学习的思想,将多个FastText弱分类模型通过组合的方式,得到一个对于诈骗网站识别的强分类器,取得了不错的实验结果。
1.4 本文的主要研究内容
研究内容主要为对于诈骗网站的自动识别。具体来说,考虑网站所包含的文本特征和网络特征,来搭建识别模型,从而实现诈骗网站的自动识别。由于诈骗网站数量较少,可信网站数量远大于诈骗网站的数量且类别较多,即两类数据存在严重的不平衡情况,若采用二分类模型,则负类选取采样较为困难,因此考虑采用的模型为单分类模型,即训练数据仅有一类,模型最终识别样本是否属于该类。单分类模型主要有采用机器学习方法1-SVM,采用深度学习方法的CVDD。