《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 业界动态 > EMG在语音信号识别中的应用

EMG在语音信号识别中的应用

2008-10-23
作者:戴立梅 姚晓东 王 蓓 邹

  摘 要: 提出使用肌电信号的语音识别" title="语音识别">语音识别系统。研究证实从面部肌肉中提取的肌电信号存在语音信息。实验使用(0~9)十个数字,受试者每隔10s重复单词。讲话时用电极记录五个通道表面肌" title="表面肌">表面肌电信号。用短时傅里叶变换" title="短时傅里叶变换">短时傅里叶变换提取信号的特征量,并通过主成分分析" title="主成分分析">主成分分析降维,有效地提取特征量进行模式识别。分类错误范围在15%以下。实验表明表面肌电信号的语音识别系统有着极好的前景。
  关键词: EMG信号 语音识别 短时傅里叶变换 模式识别 生物信号处理


  肌电图EMG(electromyography)是研究或检测肌肉生物电活动,借以判断神经肌肉系统机能及形态学变化,并有助于神经肌肉系统的研究或提供临床诊断的科学。肌电信号(EMG)发源于作为中枢神经一部分脊髓中的运动神经元,是电极所接触到的许多运动单元发放的动作电位的总和,反映了神经肌肉的活动、功能状态[1]。表面肌电信号是从人体骨骼肌表面通过电极记录下来的神经肌肉活动发放的生物电信号。肌电信号不仅在临床医学、运动学等领域被广泛应用,而且研究证实肌肉关节内的生理肌电信号存在着相应的语音信息[2~3]。不同的肌肉运动模式是由不同的肌群收缩产生的,其所伴随的表面肌电信号是不同的。而发音时肌肉对应着不同的运动模式,完全有可能从不同的表面肌电信号特征中找到对应的肌肉动作模式。随着信号处理方法和计算机技术的发展,如何从生理肌电信号中识别出语音信号,已引起越来越多人的关注。
  以前有些用肌电信号识别语音的研究,研究目的是使用肌电信号作为输入来弥补语音信息。肌电语音识别系统与常规语音识别标准相比,识别准确度较差,但准确度远高于随便猜测的准确度。这表明在肌肉关节内的生理肌电信号存在着语音信息。语音识别中使用肌电信号的优点是能够帮助发音障碍者交流;且信号不受声音噪声干扰;还有一些字在声学上发音相似,但说话方式和嘴的位置不同,在表面肌电信号中信号的特征是有区别的。这意味着肌电信号能用来区别听起来相似的字。Day[3]研究表明,识别准确度在听起来相似和不相似的词汇中保持相同。使用面部肌电信号的语音识别系统一个应用是帮助操作高性能飞机的飞行员,一旦系统识别出飞行员讲的话,能使用信息控制设备,如显示器、雷达、无线电通信和飞行导航,但飞行舱内是高噪声的环境,声学噪声能掩盖飞行员的所有口头讲话,严重降低了常规的语音识别系统的准确度和性能,在飞行舱内使用面部肌电信号能提高语音识别性能。
  本文使用表面肌电信号(EMG)的语音信号识别系统改善噪声条件下的声音性能或帮助发音障碍的人。有些人发音有障碍,但讲话时面部肌肉与正常人有同样的动作模式,这样使用表面肌电信号能帮助这些发音障碍的人发出简单的指令,用来交流。
1 原理和方法
  本研究只使用肌电信号的信息识别孤立的单词、(0~9)十个数字。使用脑电图仪EEG-1100K(electroencephalograph, EEG)采集肌电信号,采用双极导联模式,采样频率1000Hz。使用(0~9)十个单词做试验。在实验中,受试者每10s重复词汇表中的单词,每个单词重复10次。受试者以相似的方式重复讲每个单词,保持音量和语速最小变化。


  表面肌电信号从五组面部肌肉中采样,五路信号如图1所示。提肌口(LAI)、颧肌部分(ZYG)、颈阔肌(PLT)、压板口(DAO)、二腹的前面腹部(ABD)。使用五对表面电极采集肌电信号,每个电极用电极膏改进电极—皮肤界面,降低电阻。参考电极放在鼻根部。图2是部分数字(0~3)的五路肌电信号(通道LAI、ZYG、PLT、DAO、ABD)时序图。
  肌电信号分析,首先对采集的信号进行预处理,端点检测。再使用短时傅里叶变换(STFT)处理数据,提取特征量。通过主成分分析(PCA)减少这些特征集系数的维度。5个肌电通道每个都保留6个PCA系数,这样一共有30个特征量。使用线性判别分析分类器分类(0~9)十个数字。表面肌电信号中语音识别系统的构成如图3所示。


2 特征量提取
  肌电信号本质上是具有非平稳特性的生理电信号,时频分析是研究非平稳信号的一种有效方法。该方法在时频面上表述信号的时变特征,能够更清晰地反映出信号的频率特性随时间的变化。本研究使用短时傅里叶变换方法对讲不同词的肌电信号进行分析,由于变换后特征向量" title="特征向量">特征向量的维度很高,为了成功的分类需要采用合适的降维方法,本文通过主成分分析PCA(Principal Component Analysis)减少这些特征集系数的维度。
2.1 短时傅里叶变换
  短时傅里叶变换基本原理:把信号划分成许多小的时间间隔,分析每一个时间间隔,确定每个间隔存在的频率,频谱的总体表示频谱在时间上的变化。
  信号s(t)短时傅里叶变换定义为:
  
2.2 主成分分析(PCA)
  主成分分析(PCA)是总结多变量分析属性的方法,经常用于特征提取或数据压缩上的线性变换。在统计模式识别方面,主成分分析提供降低维度的有效方式,有效地减少特征系数表示的数量[4]。PCA是把特征映射到特征向量上,保留那些最大的特征值。
  p维随机向量x的n次采样值构成样本阵X(n×p),n个p维列向量zi构成矩阵Z,如式(1)。
  Z=XT=(z1 z2 … zp)    (1)
  式中 T=(t1 t2 … tp)为正交阵,其列向量ti为样本方差矩阵的特征值λi所对应的单位特征向量,且有λ1≥λ2…≥λp,则z1,z2,…,zp分别为样本阵X的第1主成分,第2主成分,…,第p主成分,而且主成分z1表达了x最主要的信息,z2表达了x次主要的信息,依次类推,前m个主成分一起表达x的主要特征。
3 特征分类
  对肌电信号中的语音识别来说,特征提取是基础,有效地进行分类是关键。本文的模式识别分类采用线性判别分类LDA(linear discriminant analysis),分类(0~9)十个数字。
  线性判别分析,亦称为Fisher线性判别,是较常用的方法[5]。Fisher准则函数就是为了发现使得样本类间离散度和样本类内离散度的比值最大的投影方向。即在一投影方向上,同一个类的样本聚集在一起,而不同类的样本相对比较分散。
  样本类间离散度矩阵定义为:
  
  其中,μi是Ci类的均值,μ是所有样本的均值,Pi是先验概率。
  样本类内离散度矩阵定义为:
  
  其中, Si=E[(x-μi)(x-μi)Tx∈Ci]投影后希望样本类间离散度越大越好,而样本类内离散度越小越好。因此,如果Sω是非奇异矩阵,最优的投影方向Wopt就是使得样本类间离散度矩阵和样本类内离散度矩阵的行列式比值最大的那些正交特征向量。因此,Fisher准则函数定义为:
  
  通过线性代数理论知,Wopt就是满足等式SbWiiSwWi(i=1,2,…,m)的解,对应于矩阵Sw-1Sb较大的特征值λi的特征向量。
4 实验与结论
  在实验中,使用脑电图仪(EEG-1100K),采用五对电极从面部肌肉同时采集五路肌电信号,受试者每10s讲(0~9)十个数字,每个数字重复讲十次。对采集的肌电信号首先预处理端点检测,然后对采集的五路肌电信号分别作短时傅里叶变换,分析窗选用矩形窗,窗宽为1024点。提取短时傅里叶变换频谱图的结果矩阵,做主成分分析降低维度,构造特征矢量,输入线性判别分析分类器进行识别。
  由于傅氏变换后特征向量的维度很高,为了成功地分类需要降低维度,通过主成分分析(PCA)减少特征集系数的维度。本文将不同数字的五路肌电信号的短时傅里叶变换的幅度矩阵进一步做主成分分析降维,构造相应数字的特征矢量,x=[o11,…,o16,…,o51,…,o56]。其中o11,…,o16是第一路信号降维后的主成分;o51,…,o56是第五路信号降维后的主成分。


  表1列出了实验中(0~9)十个数字降维后ABD通道主成分的部分特征向量。从表1中的数据可以看出由信号傅里叶变换系数的幅度进行主成分分析,提取的特征量具有很好的分离性。
  本文线性模式分类采用基于fisher准则的线性判别分析分类器,对特征矢量分别计算类间散度、类内散度,寻求一最优投影方向。图4表明了(0~9)十个数字分类后的散点图。经过分类器的识别,对(0~9)十个数字的分类错误率在15%以下。


  通过实验可以得到:短时傅里叶变换后再做主成分分析降维提取特征量,提取的特征稳定且易于识别。面部肌肉记录的表面肌电信号实现语音信号语音识别,辅助发音障碍者交流。研究结果证明,对10个数字的词汇使用肌电信号有较好的分类准确度。实验表明用表面肌电信号提高常规的语音识别系统有着极好的前景。但是做使用肌电信号实现语音识别系统的可行性结论前,还需进一步研究。首先,必须研究扩展测试条件,如连续的语音、更少强调发音、讲话速率的最小变化。生理上的变化也可能影响肌电信号。
参考文献
1 王新德,汤晓芙,崔丽英等.神经病学(2)——神经系统临床电生理学,人民军医出版社,2002
2 Morse,M.S., O′Brien, E.M. Research summary of a scheme to ascertain the availability of speech information in the myoelectric signals of neck and head muscles using surface electrodes.Computers in Biology and Medicine,1986;16(6):399~410
3 Day, S.H. (1990): Recognition of speech uti-lizing the myoelectric signals of neck muscles- An advanced study in the time domain, M.Sc.Thesis, Auburn University.
4 司风琪,洪军,徐治皋.基于向量投影的数据 检验PCA方法.中国电机工程学报,2002;10
5 Richard O. Duda Peter E. Hart David G. stork著,李宏东, 姚天翔译. 模式分类.北京:机械工业出版社,2003

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。