《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 业界动态 > 基于多带CHMM和神经网络融合的语音识别

基于多带CHMM和神经网络融合的语音识别

《电子技术应用》2007年第2期
2008-01-09
作者:姜 波,黄 炜

摘 要: 根据人类的听觉感知机理,提出了一种改进的基于多子带连续隐马尔科夫模型和BP神经网络融合" title="网络融合">网络融合的识别算法。
关键词: 语音识别" title="语音识别">语音识别  多子带连续隐马尔科夫模型  BP神经网络

 

    连续隐马尔可夫模型CHMM(Continuous Hidden Markov Models)是语音识别中的主要技术之一。CHMM的优点是对动态时间序列有极强的建模能力,是一种基于时序累积概率的动态信息处理方法。在训练中,一个CHMM的参数由同类模式的训练样本集得到,每一类模式对应一个CHMM。CHMM的缺点是由于仅考虑了特征的类内变化,而忽略了类间重叠性;仅用到各个模型中的累积概率最大" title="最大">最大的状态,而忽略了各个模式间的相似特征,因而影响了CHMM识别语音的性能。
    人工神经网络ANN(Artificial Neural Network)是基于模仿人脑神经网络结构和功能而建立的一种信息处理系统,具有高度的非线性处理能力,能够进行复杂的逻辑操作和分类识别。虽然ANN有很强的分类决策能力和对不确定信息的描述能力,但它对时间序列的处理能力尚不尽人意。
    将CHMM的动态建模能力和ANN的模式分类能力有机地结合起来是语音识别的一个研究热点。由于在最大似然估计中,CHMM基于严格的公式推导,很难进行修改,而ANN作为估计器其性能要比传统的统计识别系统" title="识别系统">识别系统强,不仅可通过训练用来产生后验概率,而且可根据需要进行合理的改善。因此,研究人员将ANN和CHMM结合,构成了多种性能较好的CHMM/ANN混合模型[1]
    不同语音在训练好的各CHMM 下的概率分布有不同的规律,不同的语音不同人发音和同一人发音有一定的相似性。如选择合适的CHMM输出作为ANN的输入矢量对ANN进行训练,利用ANN的非线性分类能力,能提高语音识别率。在大多数语音识别系统中,短时语音特征参数的提取是在语音的全频带" title="全频带">全频带进行的。然而,对人类的听觉感知机理的研究表明,人类的听觉解码首先是从相互独立的子频带中提取信息,然后再对不同子带的信息进行综合判决的。此外,对于训练与测试时的信道失配,由于各个信道的频率响应不一致,所以在不同子频带也表现出差异[2]。本文提出了一种改进的基于多带CHMM和ANN的语音识别算法,有效地提高了识别率。
1 基于多带CHMM和神经网络融合的语音识别
1.1 多带识别子系统的理论依据
    由于背景噪声和信道畸变的干扰,语音信号通常并不是纯净的,不仅记录了语音的特征,还反映了训练环境的特征,并且这些特征被记录到模型中。而在语音识别系统的测试中,其测试语音与训练环境通常是在不同环境下采集的,由此语音信息是不同的。这时模型和测试数据之间的匹配就会受到干扰,称为失配。失配问题的解决决定了语音识别系统的应用效果[3]
    针对失配的问题,利用倒谱均值规整(CMN)[4]、人耳的听觉感知机理的相对谱(RASTA)参数[5]、并行模型组合(PMC)等方法,都有一定的效果,其中CMN因原理简单和易于实现而被广泛应用。但是,以上方法的效果都不理想。
    通常,语音特征参数的提取都是利用语音的全频带进行的。然而,如上所述,根据听觉感知机理,子频带的研究和使用也有重要的意义,同时还有以下工程理由来考虑某种形式的子带策略[6]
    (1)噪声可能仅仅破坏某一部分的频率。如果采用几个独立的子带,其他未受影响的子带就保持了纯净的音频信号,可以做出可靠的训练和识别。
    (2)某些子带可能拥有相比其他子带更良好的性能,比如语音信号就主要集中在低频段。
    (3)子带之间相互独立,分别进行训练,系统处理更加健壮,更加灵活。
    (4)不同的训练和识别策略可以应用于不同的子带。
    此外,语音能量也是一个很重要的参数,可以用来作为语音识别的一个特征[7]。因此改进的算法是将多个子带以及全频带特征和帧平均能量作为ANN的输入,利用ANN对各子带CHMM系统以及帧平均能量的信息进行融合判决,以提高语音识别系统在信道失配和噪声失配时的识别性能。
1.2 多带CHMM/BP神经网络识别系统
    多带CHMM/BP神经网络识别系统如图1所示,系统由CHMM识别子系统和BP神经网络(BPNN)识别子系统构成。将CHMM和BPNN结合起来,利用CHMM组成的多子带系统输出矢量在矢量空间上用BPNN进行非线性映射,并从中提取新的识别信息,再利用BP神经网络的非线性映射能力,对输入矢量的分量加以提取,利用模式间的相关性对模式进行分类。由于利用了两种识别模式的综合信息和能力,多带CHMM/BPNN识别系统能有效地提高系统对噪声的鲁棒性。

 

 


    如图1所示,在语音频率范围内划分若干个子频带,在每个子频带内分别提取特征参数并建立CHMM子系统,与帧平均能量一起作为BPNN的输入,进行融合判决。由于全频带能反映各种频率信息之间的关联性,因此图1还有一个全频带的子系统。帧平均能量为语音数据能量的帧平均值。
2 实验结果和分析
2.1 系统的训练过程
    系统的训练分为CHMM和BPNN的训练。语音数据采样频率为8kHz,提取其MFCC特征,即12阶的MFCC参数和1阶差分参数。在CHMM的训练中,每个数据逐一进行训练。由于3个或4个子带的识别效果优于其他子带划分方法[3]、[6],因此,系统分别划分为3个和4个子带进行实验比较, 3个子带划分为100~1 100Hz、1 000~2 200Hz、2 000~4 000Hz,4个子带划分为100~1 000Hz、800~2 000Hz、 1 400~2 600Hz、2 000~4 000Hz。每个数据训练时分别产生不同的子带和全带的CHMM模型,模型之间互相独立。即每个频带的数据在CHMM训练是由同一个频带的不同样本训练的,当需要学习新的样本时,只需对相应的CHMM模型进行修正即可,而无须改变其他的CHMM模型。
    而BP神经网络的训练采用的是多语音模式训练,这是由于网络的引入目的是对于不同的输入特征进行模式分类的。因为不同的模式类,其CHMM模型是不同的,但是对于BP神经网络则是公用的。这种训练方式保证了不同模式样本之间的相关性和干扰性,利用模式间的这些信息对于BP网络进行训练,可有效地增强整个系统的模式分类能力,提高系统在各种条件下的鲁棒性。
多带CHMM/BP神经网络识别系统的训练过程如下:
    (1)运用CHMM训练算法建立和训练每个CHMM模型。在3个子带实验中,共4个模型,分别对应3个子带和1个全带;在4个子带实验中,共5个模型,分别对应4个子带和1个全带。
    (2)输入训练语音xi(i为语音在字库的序号),用CHMM对语音数据进行时序处理,通过Viterbi算法得到相对应的各CHMM模型的参数。把每个模型中的最大输出概率的状态序号取出来并同输入语音的帧平均能量组成输入矢量Vi,Vi=[qi1,qi2,…,qi,Ei],其中qi1,qi2,…,qi分别代表语音xi子带和一个全带的最大输出概率的状态序号,Ei代表语音xi的帧平均能量。
    (3)对输入矢量进行归一化后作为BP神经网络的输入矢量,输出矢量为输入语音数据的对应矩阵R,R=[r1,r2,…,ri,…,r10],其中只有元素ri=1(i为语音在字库中的序号),而其他均为0。
    (4)运用BP神经网络的学习算法对网络进行训练,直到BP神经网络的收敛精度达到要求为止。
2.2 系统的识别过程
    先让待识别语音数据经过不同的CHMM子系统和帧平均能量计算模块,然后把每个CHMM模型中最大输出概率的状态序号取出来并同输入语音的帧平均能量保存在输入矢量V中,最后使用BP神经网络对输入矢量进行非线性映射,得到识别结果。具体做法类似训练过程。
2.3 实验过程
    以采样频率为8kHz,16位数据,帧长32ms(对应256点),帧移10ms(对应86点),识别对象为汉语的十个数字(0~9),发音者共20人,每人每个词采样三遍,其中10个人每人抽取一组语音作为训练数据,其余的作为识别数据。另外使用了与训练环境不同情况下采集的12组语音作为带噪语音。
    CHMM模型中的状态数和混合度,BP神经网络的节点数对系统性能均有影响。通过实验,状态数为4和混合度为3时,对于单字识别效果很好,但提高状态数和混合度时,不会有明显的性能提升反而增加了运算量。而BP网络的层数通常在实际运用中决定,对于本次实验中,三层网络(输入层为5个节点,中间层为20个节点,输出层为10个节点)可以达到很好的识别效果。
为测试CHMM/BPNN混合模型的实验能力,分别对纯净语音和带噪语音进行了实验,3个子带的实验结果如表1所示,4个子带的实验结果如表2所示。本系统实现的三子带模型和四子带模型(CHMM/BPNN+Ei)同传统的CHMM模型(CHMM)以及不加入帧平均能量Ei的CHMM/BPNN模型(CHMM/BPNN)进行了比较,得到的实验结果如表3所示。

 


    从表1、表2、表3可以看出:
    (1)4个子带的识别效果不如3个子带好。这是因为使用较多的子带时,由于子带划分太细,每一个子带携带的信息量太少,导致子带的识别率下降,从而使融合的识别效果受到影响。
    (2)语音信号的主要特征集中在低频段,尤其是1000Hz以下,子带1的识别率在几个子带中最高,子带频率段越高,识别能力越低,可分别从3个子带和4个子带的子带1看出。
    (3)传统的CHMM模型对于非特定人、关键词的纯净语音识别能力比较高,但在信噪比逐渐降低的时候,识别率明显下降。
    (4)CHMM/BPNN模型在纯净语音环境下,识别率不如CHMM模型,但是在噪声背景下,其识别率由于子带的影响也低于CHMM模型。不过实验中也发现,当噪声或者失配比较低情况下,融合模型识别率可能低于CHMM模型。
    (5)CHMM/BPNN+Ei模型优缺点:在纯净语音环境下识别能力低于CHMM模型,但是优于CHMM/BPNN模型;对噪声的适应能力更强,在噪声环境下,识别率高于CHMM模型和CHMM/BPNN模型。因此总的来说本文提出的系统的性能还是很好的。
    (6)没有能量时,由于子带影响和神经网络的训练方式不同,会造成神经网络的识别率不如CHMM的情况。
    利用隐马尔科夫模型优异的动态时间序列建模能力及神经网络的模式分类能力,构造了混合语音识别模型,同时引入了多子带系统,降低了系统的失配效应和提高了语音识别的正确率。实验表明,这种方法是有效的。
参考文献
[1]  YNOGUTI C A, MORAIS E da S. Violaro F. A comparison between HMM and hybrid ANN-HMM based systems for continuous speech Recognition. Telecommunications Symposium,1998,(1):135-140.
[2] BOURLARD H, DUPONT S. Subband-based speech recognition.IEEE International Conference on Acoustics,Speech, and Signal Processing. 1997,(2):1251-1254.
[3]  姚志强,戴蓓倩,李辉.基于多带HMM和神经网络融合的语音识别方法的信道鲁棒性.计算机工程与应用,2004,(1):71-73.
[4] ROSENBERG A, LEE C H, SOONG F. Cepstral channel normalization technique for HMM-based speaker verification. Proceedings of the International Conference on Spoken Language Processing, 1994.
[5]  HERMANSKY H, MORGAN N. RASTA processing of speech. IEEE Transactions on Speech and Audio Processing, 1994,2(4):578-589.
[6] BOURLARD H, DUPONT S. A new ASR approach based on independent processing and recombination of partial frequency bands. Proceedings of the international conference on Spoken Language Processing,1996,(1):
 426-429.
[7] 黄湘松,赵春晖,陈立伟.基于CDHMM/SOFMNN噪声背景下的语音识别方法.应用科技,2005,32(9):4-6. 

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。