对二级域名进行数值化操作
更新日期:2022-04-05     浏览次数:139
核心提示:3.1 数据来源及预处理操作文章中所选取的域名数据集来源于互联网上公开的数据集,数据集中包含正常域名和DGA恶意域名,正常域名来自Alexa网站,恶意域

3.1 数据来源及预处理操作

文章中所选取的域名数据集来源于互联网上公开的数据集,数据集中包含正常域名和DGA恶意域名,正常域名来自Alexa网站,恶意域名来自360Netlab实验室发布的开源数据集。正常域名从中随机选取1万条,恶意域名随机选取2万条,共计3万条数据组成一个新的数据集。将域名数据集随机打乱顺序后,采用二八分原则,将其中24000条域名作为训练数据集,剩余6000条域名作为测试数据集进行实验。

对域名数据集进行预处理,其中包括正则化、数值化、向量化等操作。首先,对域名数据集进行正则化。因为对域名进行研究主要提取的是完整域名信息中的二级域名,所以去除掉域名中存在的域名头、子域名等相关信息,顶级域名可以作为备选项而留下,将二级域名与其所属DGA家族和标签对应上

其次,对二级域名进行数值化操作,利用一组伪随机数序列给每一个二级域名一个独立的编码,令它们之间互异,不会产生重合

2024-11-14• 基于迁移学习和卷积神经网络的的电力系统状态评
审稿意见一、总体评价《基于迁移学习和卷积神经网络的电力系统状态评估方法》一文提出了一种新颖的电力系统安全状态评估方法,将迁移学习与卷积神经网...
2022-03-16• 结合时域特征和频域特征改进的音频分类基模型
1.1 音频识别算法整体架构本文提出的通用设备端音频识别方法的总体流程。首先构建一个结合时域特征和频域特征改进的音频分类基模型,然后在此基础上进...
2022-03-15• CViT模型相结合的农作物病害预测方法
(1)本研究提出一种迁移学习与CViT模型相结合的农作物病害预测方法,在通用公共数据集上完成模型的预训练,然后使用迁移学习方法将预训练模型迁移到...
2022-03-01• 卷积神经网络模型
ResNet50网络基本理论残差块包括权重层,将输入x通过跳越层直接连接到输出上,F(x)为残差映射,H(x)为原始映射,残差网络使堆叠的权重层拟合残差映射F...
2021-05-26• 一种基于迁移学习的小样本图像分类方法
摘要深度学习模型应用于小样本图像分类时,存在训练时间过长和过拟合的问题。鉴于此,提出了一种基于迁移学习的小样本图像分类方法。首先,将MobileNet-V...
2019-09-17• 基于迁移学习的视频交通量折算方法
基于迁移学习的视频交通量折算方法摘要:现在我国大多数城市中,监控视频是采集交通信息主要手段,视频方法采集交通量具有节省人力,处理信息量大等优...