结合时域特征和频域特征改进的音频分类基模型
更新日期:2022-03-16     浏览次数:246
核心提示:1.1 音频识别算法整体架构本文提出的通用设备端音频识别方法的总体流程。首先构建一个结合时域特征和频域特征改进的音频分类基模型,然后在此基础上进

1.1 音频识别算法整体架构

本文提出的通用设备端音频识别方法的总体流程。

首先构建一个结合时域特征和频域特征改进的音频分类基模型,然后在此基础上进行2种不同方式的迁移学习,最终将这2种迁移学习产生的模型进行集成。

1.2 音频识别数据集

本文选取AudioSet的原始音频记录作为训练集和验证集训练模型。AudioSet数据集是一个声音词典数据集,它包含5800小时时长的音频记录,分属于527个标签类别,覆盖了人类音频,动物音频,乐器及音乐流派音频,以及常见的日常环境相关音频。

AudioSet数据集的原始音频以本体的形式设计和管理,AudioSet Ontology按照音频事件类别的层次结构来构建,将不同的声音做进一步的细分。图2中展示了“Cat”类及其父类和子类组成的ontology部分,其中“Cat”类的子类包含了猫正常交流的叫声,愉悦时的叫声以及生气时的叫声等等。

2024-11-14• 基于迁移学习和卷积神经网络的的电力系统状态评
审稿意见一、总体评价《基于迁移学习和卷积神经网络的电力系统状态评估方法》一文提出了一种新颖的电力系统安全状态评估方法,将迁移学习与卷积神经网...
2022-04-05• 对二级域名进行数值化操作
3.1 数据来源及预处理操作文章中所选取的域名数据集来源于互联网上公开的数据集,数据集中包含正常域名和DGA恶意域名,正常域名来自Alexa网站,恶意域...
2022-03-15• CViT模型相结合的农作物病害预测方法
(1)本研究提出一种迁移学习与CViT模型相结合的农作物病害预测方法,在通用公共数据集上完成模型的预训练,然后使用迁移学习方法将预训练模型迁移到...
2022-03-01• 卷积神经网络模型
ResNet50网络基本理论残差块包括权重层,将输入x通过跳越层直接连接到输出上,F(x)为残差映射,H(x)为原始映射,残差网络使堆叠的权重层拟合残差映射F...
2021-05-26• 一种基于迁移学习的小样本图像分类方法
摘要深度学习模型应用于小样本图像分类时,存在训练时间过长和过拟合的问题。鉴于此,提出了一种基于迁移学习的小样本图像分类方法。首先,将MobileNet-V...
2019-09-17• 基于迁移学习的视频交通量折算方法
基于迁移学习的视频交通量折算方法摘要:现在我国大多数城市中,监控视频是采集交通信息主要手段,视频方法采集交通量具有节省人力,处理信息量大等优...