1.1 音频识别算法整体架构
本文提出的通用设备端音频识别方法的总体流程。
首先构建一个结合时域特征和频域特征改进的音频分类基模型,然后在此基础上进行2种不同方式的迁移学习,最终将这2种迁移学习产生的模型进行集成。
1.2 音频识别数据集
本文选取AudioSet的原始音频记录作为训练集和验证集训练模型。AudioSet数据集是一个声音词典数据集,它包含5800小时时长的音频记录,分属于527个标签类别,覆盖了人类音频,动物音频,乐器及音乐流派音频,以及常见的日常环境相关音频。
AudioSet数据集的原始音频以本体的形式设计和管理,AudioSet Ontology按照音频事件类别的层次结构来构建,将不同的声音做进一步的细分。图2中展示了“Cat”类及其父类和子类组成的ontology部分,其中“Cat”类的子类包含了猫正常交流的叫声,愉悦时的叫声以及生气时的叫声等等。