《电子技术应用》
您所在的位置:首页 > 其他 > 业界动态 > 一种基于时域解相关的双通道语音分离算法

一种基于时域解相关的双通道语音分离算法

2008-07-30
作者:夏秀渝, 何培宇, 周激流

    摘 要: 提出了一种基于时域解相关的卷积混合" title="卷积混合">卷积混合语音盲分离时域算法。该算法利用相关系数对语音信号" title="语音信号">语音信号进行时域去相关处理,同时基于二阶统计量完成双通道语音分离" title="语音分离">语音分离。该算法充分考虑了语音信号本身的相关性及不平稳性,收敛速度快,稳定性好,为减小计算量提出了该算法的递推改进算法。仿真实验表明,在对卷积混合双通道语音信号进行盲分离时,该算法是非常有效的。
    关键词: 语音分离; 卷积混合; 去相关

 

  人耳具有很强的分离声音的能力,即所谓的“鸡尾酒会效应”。如何让机器也具备这种自动分离语音的能力是目前的一个热点研究问题。瞬时混合语音信号的盲分离研究已比较成熟并且产生了很好的分离效果[1],但在实际场合,对多个麦克风接收到的混合语音信号进行盲分离时,因语音信号本身的相关性及不平稳性,尤其是延迟和反射造成的卷积,使卷积混合语音信号的盲分离变得十分困难。
  盲分离算法" title="盲分离算法">盲分离算法有时域和频域算法之分,时域算法能获得独立性一致的分离信号,但有计算量大、对于语音信号算法收敛性差等缺点。频域算法是把时域的卷积混合变换到频域用瞬时混合盲分离算法对其进行分离,由于信号顺序倒转、功率归一化等问题,这些算法的复杂程序大大增加,分离效果也不是太好,而且其为分帧处理,有延迟效应。
本文研究卷积混合语音信号的盲分离方法。综合考虑了语音信号既是非平稳信号又是有色信号(强相关信号)的特点,提出了基于时域解相关和空域解相关同时进行的语音盲分离时域算法,仿真实验证明此算法收敛快,稳定性好,在对卷积混合语音信号进行盲分离时,获得了非常好的效果。
1 双通道语音卷积混合分离简化模型
  设麦克风1收到的信号为x1(t),令其中来自声源1的部分记做s1(t),麦克风2收到的信号为x2(t),令其中来自声源2的部分记做s2(t), 则在一定条件下,得到简化的卷积混合及分离模型[2]
  在简化模型中,分别用两个严格因果的FIR滤波器来逼近混合滤波器h12和h21。所谓严格因果的滤波器是指滤波器的零延迟项系数为零。当源信号位于麦克风阵列法线两侧时,基本可认为h12和h21为严格因果系统。若此时的分离模型采用图1所示结构,且规定w12和w21也为严格因果的,则可分析出只有当h12=w12,h21=w21,这种情况才能成功分离出混合语音。这种混合分离模型情况下,分离工作本质是一个系统盲辩识的过程,h12和w12以及h21和w21的接近程度决定了分离效果的好坏,他们越接近,分离效果越好。当源信号处于麦克风阵列同侧时,在相应分离滤波器引入延迟,以上方法也适用,当然延迟的多少须由源信号的方位确定。

 


2 算法提出
  非严格的理论分析显示二阶统计量可以用于非平稳的语音分离。实践证明采用二阶统计量比采用高阶统计量在实际中能得到更好的语音分离效果和更小的计算量。
  Kawamoto针对非平稳信号提出了基于二阶统计量的卷积混合盲分离算法[3]
  


  Pi代表输出信号yi在不同时段的能量。该算法实现简单,已在TMS320C6701 EVM板上实时实现了语音分离,有不错的效果[4]。但研究发现对于语音信号该算法收敛还是较慢,且收敛稳定性差。
  在仔细分析了实验结果后,笔者认为收敛慢的根本原因是由于语音信号时间上的强相关性导致学习的权向量相互影响而收敛慢,收敛不稳定是由语音信号的非平稳性造成的。传统基于二阶统计量的盲分离算法进行的是空域去相关处理,考虑到语音信号时间上的强相关性,对于分离滤波器的盲辨识还应同时考虑对信号进行时域解相关处理。
  Doherty 与Porayath于1997年提出解相关的LMS算法(简称DLMS算法)[5],对于强相关性的语音信号该算法收敛速度大大加快。其基本思想是用信号解相关的结果作为更新方向向量:
  定义输入信号向量x(n)和x(n-1)的相关系数为:
  

  令v(n)=x(n)-ρ(n)x(n-1),为x(n)解相关的结果, DLMS算法权的调整则利用e(n)v(n)来代替LMS算法中的e(n)x(n)完成,即:
   

    根据上述思想,本文提出时域解相关的语音盲分离算法:将Kawamoto算法中权的调整由yj(n-k)改变为
  新算法(D_BSS1)迭代步骤如下:

  (1) 初始化:wij(0)=0       i≠j∈{1,2}
  (2) 更新:n=1,2,3…

   
  新算法中由于采用解相关的结果v(n)作为更新方向向量,盲辨识h12时不仅对y1(n)(相当于系统激励信号)作了时间解相关处理,加快算法收敛速度,而且对y2(n)(相当于自适应系统辩识中参考信号中的噪声)经解相关处理幅度大大降低,算法收敛的稳定性大大提高,盲辨识h21同样。
  为了减小上述算法中的计算量,做如下改进:相关系数的计算采用迭代算法,其中β取0~1的数,向量vi(n)每次只计算更新最新的一个元素vi(n), 具体算法如下:
  改进算法(D_BSS2)如下:
   

    从上面迭代公式看,与Kawamoto算法比较, D_BSS2仅增加了一次相关系数的迭代和元素vi(n)的计算量,所增加的计算量相对于几百甚至几千阶的分离系统" title="分离系统">分离系统来说几乎可以忽略。
3 仿真结果
3.1 算法收敛性能及语音分离情况
  以上面简化模型为基础完成如下仿真,两声源信号各为一段长60 000点的中文朗读的女声和男声,采样率为11.025kHz。h12和h21采用如图2所示的实测房间声通道特性,滤波器长度取500点。

 


  另在x1,x2处加入信噪比为-30dB的白噪声,算法调整步长?滋取0.000 05。输入语音波形、Kawamoto算法和新算法D_BSS1失配曲线如图3所示。

 


  失配(misalignment)定义如下:
  


    失配越小,说明wij和hij越接近。图3中虚线为Kawamoto算法的失配变化曲线,实线为新算法的失配变化曲线。可见,新算法在迭代过程中的失配曲线收敛比Kawamoto算法快,且稳定性好得多,具有良好的跟踪性能。按照现在语音盲分离常采取的办法,让盲分离算法运行一段时间,收敛后停止迭代,用权进行语音分离,采用提高信号干扰比SIR来反映算法性能,信干比定义如下:
   

    其中s′i(n)表示麦克风接收信号xi(n)或分离输出端yi(n)中与源信号si(n)相关的部分。当运行60 000点停止迭代时,测得新算法信干比为: SIR_x1=4.2dB,SIR_y1=12.4dB, SIR_x2=0.3dB,SIR_y2=12.6dB, 平均提高了10dB。同样条件下,Kawamoto算法平均提高了5dB,由于Kawamoto算法失配曲线收敛的不稳定性不能保证停止迭代时两路权都最佳,所以Kawamoto算法有分离效果不稳定的现象。
3.2 改进算法D_BSS2的性能
    在上面相同的实验条件下,进行了D_BSS1和D_BSS2算法性能的对比实验,得到两种算法失配曲线如图4所示。
可见,改进算法D_BSS2收敛性能比D_BSS1稍微差一点,但计算量却大大降低,D_BSS2和Kawamoto算法的计算量相差不多。

 


3.3 实际混迭语音分离实验
    仿真实验在一虚拟声学实验室进行,房间长、宽、高为(5,4,3)(m),房间混响时间为0.2s,两声源位于(1.5,2,1)和(3.5,2,1)处,两麦克风分别位于(2,1,1)和(3,1,1)处。信号采样率为11.025kHz,分离滤波器阶数取500阶,由于无法得到对应简化模型中的h12和h21(其本质为声源到两麦克风的差异冲击响应),所以不能用失配来反映分离性能,采用D_BSS2,测得信干比平均提高11dB,算法一直迭代情况下,试听分离系统的两路输出,算法收敛很快,明显听到每通道声音由两个声音很快变为一个声音,语音得到成功分离。
  本文提出针对非平稳强相关语音信号的双通道语音分离时域算法,该算法基于二阶统计量进行混合语音的分离,采用时域解相关处理来降低语音的时间相关性,从而具有计算量小,收敛速度快,稳定性好的优点,能较好完成卷积混合语音的实时分离工作。


参考文献
[1]  BELL A J, SEJNOWSKI T J. An information-maximization approach to blind separation and blind deconvolution [J].Neural Computation, 1995,(7):1129-1159.
[2]  何培宇,殷斌.一种有效的语音盲信号分离简化混合模型[J].电子学报, 2002,30(10):1438-1440.
[3] KAWAMOTO M, BARROS A K, MANSOUR A, et al. Real world blind separation of convolved non-stationary signals. ICA 1999:347-352.
[4] 张玲,何培宇.一种时域盲信号分离系统的DSP实现 [C].全国第二届DSP应用技术会议,2004,8(23):222-224.
[5]  DOHERTY J, PORAYATH R.  A robust echo canceler for  acoustic environments[J]. IEEE Trans, Circuits and Sys  temsⅡ1997,(44):389-398.

 

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。