《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 设计应用 > 反蓄意模仿说话人识别系统中特征参数提取的研究
反蓄意模仿说话人识别系统中特征参数提取的研究
2016年微型机与应用第12期
唐宗渤1, 周萍 2,王茂蓉 2,刘继锦 2
(1.桂林电子科技大学 信息科技学院,广西 桂林 541004; 2.桂林电子科技大学 电子工程与自动化学院,广西 桂林 541004)
摘要: 当模仿者蓄意模仿说话人的语音且相似度极高时,说话人识别系统就有可能被欺骗。特征参数的提取是说话人识别的关键环节,直接影响了系统的识别性能。MFCC是语音识别中最热门的特征参数之一,但由于其只反映了语音的静态特性,为了提取更具个人语音特性的特征参数,引入加权MFCC,同时结合离散小波变换得到DWTWC,根据增减分量法,提出了DWI-MFCC。实验表明,DWI-MFCC倒谱系数比MFCC能更有效地区分语音的相似度。
Abstract:
Key words :

  唐宗渤1, 周萍 2,王茂蓉 2,刘继锦 2

  (1.桂林电子科技大学 信息科技学院,广西 桂林 541004; 2.桂林电子科技大学 电子工程与自动化学院,广西 桂林 541004)

       摘要:当模仿者蓄意模仿说话人的语音且相似度极高时,说话人识别系统就有可能被欺骗。特征参数的提取是说话人识别的关键环节,直接影响了系统的识别性能。MFCC是语音识别中最热门的特征参数之一,但由于其只反映了语音的静态特性,为了提取更具个人语音特性的特征参数,引入加权MFCC,同时结合离散小波变换得到DWTWC,根据增减分量法,提出了DWI-MFCC。实验表明,DWI-MFCC倒谱系数比MFCC能更有效地区分语音的相似度。

  关键词:特征参数; MFCC; 蓄意模仿; 增减分量法

0引言

  广西研究生教育创新计划资助项目(YCSZ2015152)生物认证技术[1]作为一种身份鉴别技术,它具有安全、方便等优点。但与其他生物特性相比,声音更容易被模仿,特别在蓄意模仿与目标说话人的语音相似度极高时,就给识别系统的鲁棒性带来严峻考验。有效的声学特征,可大大提高识别性能。常用的特征参数有基因频率、线性预测参数LPC、Mel频率倒谱系数[2]MFCC等。其中MFCC能充分模拟人耳的听觉感知特性,应用较多。但其只能体现语音的静态特征,为了提取更具个人特性的参数,本文对MFCC作加权处理,结合离散小波变换引进DWTWC,根据增减分量法,提出DWIMFCC。实验表明,DWIMFCC比传统MFCC更能区分语音的相似度,提高识别系统的鲁棒性。

1特征参数的提取

  1.1Mel频率倒谱系数

  MFCC [2]作为模拟人耳特殊感知能力的参数得到研究者的推崇。其实际频率f与Mel频率fMel之间的转换关系如式(1)所示,其中fMel的单位为Mel,f的单位为Hz。MFCC的提取过程如图1所示,其参数分布示例图如图2所示。

  T5W]RCMWREDP83%JB%WJBCR.png

001.jpg

  图2MFCC的参数分布示例图由图2可知,随着维数的升高,MFCC变化幅度变小,升高到一定程度后,系统识别性不仅没有提高,反而增加了运算量。

  1.2加权Mel频率倒谱系数

  为了得到更具区分性的加权特征参数,本文采用升半正弦函数[3]进行加权,如式(2)所示:

  r=0.5+0.5*sin(π*(i-1)/n)(2)

  其中i=1,2,…,n为维数,本文n=24,0.5是静态分量。为了更准确地体现不同说话人的个性特征差异[4],本文提出另一种加权函数如式(3)所示,得到改进的加权特征参数IWMFCC。

  r1=0.5+0.5*sin(2π*(i-1)/n)(3)

  1.3DWTWC语音特征参数提取

  在提取特征参数时,用离散小波变换代替傅里叶变换,用中频区域分布密集的MidMel滤波器组[56]代替原来的滤波器, DWTWC参数的提取步骤如下:首先对语音信号进行预加重、分帧加窗等;接着用离散小波变换[7]对预处理后的信号进行处理,选择适当的小波基和分解层数对其分解,并计算小波系数;然后利用频谱的拼接把系数组成一组参数,求其能量;最后取对数,再经过DCT可得到相应的DWTWC。其提取过程如图3所示。

  

002.jpg

  与MFCC提取流程不同的是其前端处理采用离散小波变换[8],Mel滤波器换成了Mid-Mel滤波器组,有效补充了中频区域的语音信息。

2DWI-MFCC混合特征参数

  为了提高识别率,需对MFCC、WMFCC、IMFCC和DWTWC进行融合,用增减分量法[9]对维度进行筛选,将对识别率贡献最大的n阶分量进行组合,得到新的混合特征参数,如式(4)所示:

  R(i)=1n∑j>i(p(i,j)-p(i+1,j))+p(i,i)+

  ∑j<i(p(j,i)-p(j,i-1))(4)

  其中,n为阶数,p(i,j)为从第i到第j阶的识别率,R(i)为第i阶分量平均贡献值,若其大于0,则对识别有贡献,反之则使识别率下降。文中仅顺序摒弃或增添特征分量[10]。由式(4)计算出各参数中对识别率贡献最大的特征分量,对其组合得到新的特征参数,即 DWIMFCC。

3实验结果与分析

  3.1不同特征参数欧氏距离排名对比

  本文从专业配音网站提取语音库,采样频率为8 kHz,量化精度为16 bit。提取16阶MFCC,计算被模仿者与模仿者语音的MFCC和DWIMFCC的欧氏距离,然后对其从小到大排序得到表1。

004.jpg

005.jpg

  由表1可得,采用DWIMFCC的原语音和模仿语音的排名一致性高达87.5%,证明 DWIMFCC不但有效补充了MFCC在中频区域的语音信息,而且很好地体现了语音个性特征;而采用MFCC时,排名一致性只有43.75%,这是因为MFCC中只包含了语音的静态特性。综上,本文提出的DWIMFCC对语音模仿的区分能力更强,能更有效区分出原语音和被模仿语音。

  3.2不同特征参数实验结果的对比

  为验证特征参数的语音模仿区分性能,建立基于SVM的蓄意模仿识别系统,首先选取80人模仿语音库中16位名人的声音。训练阶段,先提取目标说话人与待测试说话人的特征参数,将其分别记为“+1”类和“-1”类并用以训练出目标说话人的SVM模型。测试阶段,将待测试语音与目标说话人的模型进行匹配,再和预先设定的阈值进行比较。本文选取径向基函数作为SVM的核函数,惩罚系数为3,核函数参数为0.6。实验采用16阶的MFCC和DWIMFCC分别作为样本建立SVM模型,对数据进行[0,1]归一化,计算出每个被模仿者使用不同特征参数时的错误接受率(FA),如表2所示,图4给出了两者的错误接受率的对比图。

003.jpg

  从图4可知,MFCC的错误接受率曲线处于DWIMFCC的曲线上方,即DWIMFCC参数的错误接受率比MFCC参数的低,从而更有力地说明DWIMFCC的区分性能比MFCC的要好。

4结论

  本文通过对MFCC特征参数的分布分析,提出了加权MFCC,同时结合离散小波变换引入了DWTWC,根据增减分量法,提出了DWIMFCC。从理论和实验两个方面对特征参数的有效性进行了分析,同时采用SVM对反蓄意模仿系统进行匹配分析。实验表明,本文提出的DWIMFCC相比于传统的MFCC,对语音模仿的区分能力更强,有更好的识别性能。

  参考文献

  [1] 李建文,张晋平.基于改进语音特征提取方法的语音识别[J].微电子学与计算机,2009,26(7):230233.[2] 柯晶晶,周萍,景新幸,等.差分和加权Mel倒谱混合参数应用于说话人识别[J].微电子学与计算机,2014,31(9):8991.

  [3] 吴迪,曹洁,王进花.基于自适应高斯混合模型与静动态听觉特征融合的说话人识别[J].光学精密工程,2013,21(6):15981604.

  [4] 陈明义,余伶俐,朱晗,等.基于特征参数融合的语音情感识别方法[J].微电子学与计算机,2006,23(12):168171.

  [5] 田永红. 一种优化的语音特征参数提取方法仿真[J]. 计算机仿真,2013,30(12):162165.

  [6] 吴丽芳. 语音转换系统中特征参数的研究[D].南京:南京邮电大学,2013.

  [7] 杨阳,毛永毅,郑敏,等.基于小波变换的AOA定位算法[J].微型机与应用,2014,33(3):4749,54.

  [8] 胡沁春,何怡刚,何静,等.高斯类小波变换的开关电流频域法实现[J].电子技术应用,2014,40(1):4446.

  [9] 曹孝玉. 说话人识别中的特征参数提取研究[D].长沙:湖南大学,2012.

  [10] 张璇. 基于Fisher准则的说话人识别特征参数提取研究[D].长沙:湖南大学,2013.


此内容为AET网站原创,未经授权禁止转载。