《电子技术应用》
您所在的位置:首页 > 其他 > 设计应用 > 正交约束型SincNet可微分前端及在音频分类中的应用
正交约束型SincNet可微分前端及在音频分类中的应用
网络安全与数据治理 2期
刘 伟,孙 蒙,张 玥,张雄伟
(中国人民解放军陆军工程大学,江苏 南京210007)
摘要: 在音频场景分类任务中,现有端到端模型中特征建模层学习过程存在缺乏约束、学习结果缺乏直观解释以及仅适用于特定的后端分类模型等缺点。因此,以SincNet可微分前端为基础,引入正交约束提高其求解效率,同时提高所得可微分前端的可解释性,并使其能提高多种后端网络的分类性能。提出的这种新型可微分前端命名为正交约束型SincNet(OrthSincNet)。研究发现,OrthSincNet卷积核对应的频谱既具有类似于梅尔滤波器的形态,又可提高分类效果。在UrbanSound8K官方评测数据集上的实验表明,相对于常用的梅尔频谱前端,OrthSincNet改进了6种后端分类网络的性能,分类准确率平均提高了2.2%。
中图分类号: TP391
文献标识码: A
DOI: 10.20044/j.csdg.2097-1788.2022.02.015
引用格式: 刘伟,孙蒙,张玥,等. 正交约束型SincNet可微分前端及在音频分类中的应用[J].网络安全与数据治理,2022,41(2):92-98.
Differentiable front-end of SincNet with orthogonal constrains and its application in audio classification
Liu Wei,Sun Meng,Zhang Yue,Zhang Xiongwei
(Army Engineering University of PLA,Nanjing 210007,China)
Abstract: In the audio scene classification task, the feature modeling layer learning process in the existing end-to-end models has shortcomings such as lack of constraints, lack of intuitive interpretation of learning results, and only applicable to specific back-end classification models. Based on the differentiable front-end of SincNet, this paper introduces orthogonal constraints to improve the performance of the solution of the overall network, tries to promote the interpretability of the learnt front-end, and adapts it to multiple back-end classifiers. The proposed new front-end is called Orthogonal SincNet(OrthSincNet). Therefore, the convolution kernels of OrthSincNet is expected to not only hold good properties on frequency responses like Mel filters but also to be able to tune the parameters adaptively for specific back-end classifiers. Experimental results on the official test set of UrbanSound8K showed that OrthSincNet improved the conventional Mel filter banks by 2.2% in average on 6 back-end classifiers.
Key words : differentiable front-end; orthogonal convolutions; SincNet; end-to-end classification network

0 引言

音频分类是计算机自动实施听觉感知和理解的重要步骤,也是一项非常具有挑战性的任务,如自动音乐标记、音乐类型分类、说话人识别、音频场景分类和多媒体检索等。深度神经网络的发展使得音频分类任务的准确率取得了显著提升。当前,深度神经网络一般是建立在对输入音频提取时频特征等预处理的基础上,如首先通过广泛使用的梅尔滤波器组提取时频谱图特征,然后将时频谱图特征输入到各种后端分类网络。

特征提取的预处理过程通常采用固定的时频参数和滤波器类型,难以保证对所有的后端分类网络结构持续提取出最优特征。此外,这些预处理过程一般需要线下完成,不能无缝对接到神经网络分类器中,因此难以适用于一些需要对声音波形进行反向求导的任务,如求解对抗样本[1]等。这些局限性推动了研究者们寻求构建端到端模型来完成音频分类任务。所谓端到端的分类网络结构是指直接输入声音波形,然后输出类别标签,而无须用户通过额外的特征提取工具来提取特征。例如,Dai等提出了具有不同网络结构和不同数量参数的端到端卷积神经网络(Convolutional Neural Network,CNN)用于音频分类[2]。Tokozume等提出了一种含有8层网络并以原始波形为输入的端到端网络结构,通过调节超参数并选择适当大小的卷积核来提高分类性能[3]。此外,还有端到端的CNN架构AclNet[4],受到MobileNet[5]的启发,其计算仅需155k参数和每秒4 930万次乘法加法即可高效完成分类任务。




本文详细内容请下载:https://www.chinaaet.com/resource/share/2000004865




作者信息:

刘  伟,孙  蒙,张  玥,张雄伟

(中国人民解放军陆军工程大学,江苏 南京210007)

微信图片_20210517164139.jpg

此内容为AET网站原创,未经授权禁止转载。