融合CNN和Transformer编码器的变声语音鉴别与还原-AET-电子技术应用

融合CNN和Transformer编码器的变声语音鉴别与还原

信息技术与网络安全 1期

魏春雨，孙蒙，刘伟，张星昱

(陆军工程大学指挥控制工程学院，江苏南京210007)

摘要： 语音变声伪装会导致人耳感知和声纹识别出现错误，从而达到隐匿说话人真实身份的目的。为削弱变声语音的影响，提出一种融合卷积神经网络(Convolutional Neural Networks，CNN)和Transformer编码器的模型，提取变声语音的局部特征和全局特征用于判别变声因子，并根据变声因子的数值实施变声语音还原。在中英文真实场景录音数据集上验证了所提方法的有效性，对变声因子判别实现了95%以上的准确率。利用所提出的方法，在黑箱条件下对某型商用硬件变声器输出的语音进行鉴别与还原，取得了较好的效果。

关键词： 基频变声语音鉴伪变声还原时频特征

中图分类号： TP391.9
文献标识码： A
DOI： 10.19358/j.issn.2096-5133.2022.01.008
引用格式：魏春雨，孙蒙，刘伟，等. 融合CNN和Transformer编码器的变声语音鉴别与还原[J].信息技术与网络安全，2022，41(1)：47-54.

Identification and restoration of transformed voice by fusing CNN and Transformer encoder

Wei Chunyu，Sun Meng，Liu Wei，Zhang Xingyu

(College of Command and Control Engineering，Army Engineering University of PLA，Nanjing 210007，China)

Abstract： Voice transformation will lead to errors in auditory perception and speaker recognition so as to conceal the speaker′s real identity. In order to reduce the negative impact of transformed voice, a model fusing Convolutional Neural Networks(CNN) and Transformer encoder was proposed in this paper, which extracted local and global features of transformed voice to predict the disguise factor, and restored the original voice according to the value of the disguise factor. The validity of the proposed method was verified on datasets of both Chinese and English recorded in real-world scenes, where the accuracy was higher than 95%. Under the condition of black box, the proposed method had good performance when identifying and restoring the output voice of a commercial hardware of voice changer.

Key words : pitch scaling；voice anti-disguise；voice restoration；time-frequency features

0 引言

近年来，基于指纹、人脸、虹膜、声纹的生物特征识别技术得到了迅速发展[1]。其中，声纹识别[2]以其采集方便、无需直接接触、可体现说话人的主观意图等优点，被广泛应用于身份认证、刑事侦查等领域。公安部门可以通过提取犯罪嫌疑人的声纹信息，将其与数据库中的声纹信息进行比对，进而确认嫌疑人的真实身份。然而，这种确认经常受到各种因素的干扰，其中语音变声伪装就可以通过隐匿说话人的身份，降低声纹确认的效果。

与通过压低嗓音、捏鼻子等方式物理干扰人的发声器官进行的语音伪装不同，语音变声伪装是利用变声工具对语音参数进行修改实现变声[3]。目前，各种硬件变声设备和变声软件在匿名采访、网络聊天、电子游戏等场景中得到了广泛应用。同时，一些不法分子利用变声语音进行违法犯罪活动，对案件的侦破造成了干扰。相比通过物理干扰发声器官而产生的伪装语音，变声语音更加难以辨认。变声工具会改变语音的频谱结构，进而影响声纹识别模型对说话人的验证[4-5]。有研究表明，向普通人播放经过变声伪装的语音，甚至不能准确地判断出说话人的性别。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000003936。

作者信息：

魏春雨，孙蒙，刘伟，张星昱

(陆军工程大学指挥控制工程学院，江苏南京210007)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容