《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 设计应用 > 基于流形学习ISOP算法的语音特征提取及应用研究
基于流形学习ISOP算法的语音特征提取及应用研究
来源:微型机与应用2014年第1期
赵媛媛,王 力
(贵州大学 计算机科学与信息学院,贵州 贵阳 550025)
摘要: 主要研究了基于流形学习ISOP算法的语音特征提取。将流形学习ISOP算法应用到语音识别特征提取模块中。仿真实验结果表明,该算法与传统的特征提取算法MFCC、LPCC等相比,可以取得较高的识别率。
Abstract:
Key words :

摘  要: 主要研究了基于流形学习ISOP算法的语音特征提取。将流形学习ISOP算法应用到语音识别特征提取模块中。仿真实验结果表明,该算法与传统的特征提取算法MFCC、LPCC等相比,可以取得较高的识别率。
关键词: ISOP算法;语音识别;流形学习;特征提取

 通过语音传递信息是人类最重要、最有效、最常用且最方便的交换信息的形式。而信息时代的到来,使得如何使计算机智能化地与人类进行通信,成为现代计算机科学的重要研究课题之一。同时,现实世界中的数据往往是高维的,难以被理解、表示和处理,因此对语音信号中的数据进行降维,找到一组稳定的、能表征其本质特性的特征参数是其的一个重要步骤。
 流行学习[1-2](Manifold Learning)方法是近十年才发展起来的一种非线性降维方法。流形是拓扑学中的概念,其表示一个局部处为欧几里得的拓扑空间。局部欧几里得特性意味着对于空间上的任意点都有一个邻域,在这个邻域中的拓扑与Rm空间中的开放单位圆相同(Rm表示m维欧式空间)。也就是说,流形是一个局部可坐标化的拓扑空间。基于流形的定义,可以得到流形学习的本质是,当数据均匀采样于一个高维欧式空间中的低维流形时,要从高维采样数据中恢复低维流形的内在几何结构或者内在规律,并求出相应的嵌入映射,以实现维数约减或者数据可视化。这就意味着流形学习比传统的维数约减方法更能体现事物的本质。20世纪80年代末,在PAMI上就已经有流形模式识别的说法。2000年《Science》杂志上发表的3篇论文从认知上讨论了流形学习,并使用了Manifold Learning术语,强调认知过程的整体性。几年来,流形学习领域产生了大量的研究成果。LLE和ISOMAP[2]是两种有代表性的非线性降维方法。LLE算法认为,在局部意义下数据结构为线性,即点在一个超平面上。任取一点,可以用它的邻近点的线性组合来表示。其主要思想是在样本点和它的邻域点之间构造一个重构权向量,并在低维空间中保持每个邻域中的权值不变,在嵌入映射是局部线性的条件下,最小化重构误差。ISOMAP建立在多维尺度变换(MDS)的基础上,力求保持数据点的内在几何性质,即保持两点间的测地距离。它用流形上的两点间的测地距离来取代经典MDS方法中的欧氏距离,能够准确地发现数据流形潜在的参数空间,是一种全局优化算法。
本文将流形学习的降维方式引入语音识别的特征提取模块,提出一种新的基于流形学习ISOP算法的语音信号特征提取方式。在仿真实验室中,针对0~9的特定人的语音信号进行流形学习的特征提取并进行识别,得到了不错的识别率。
1 流形学习ISOP算法
 判别等度规映射(Isometric Projection)[3]是对ISOMAP算法的线性推广,其目的是寻求一个投影矩阵A,将高维数据样本映射到低维特征空间中,且在此映射过程中保持样本数据点间的局部结构关系,由此解决了ISOMAP算法在面对新样本的加入无能为力的窘境。
 

 流形算法ISOMAP[9]作为一种非线性的全局优化学习方法,在构建测地线距离时有两个问题:(1)对样本点的噪声比较敏感,且不能处理存在多个聚类的数据集;(2)测地线距离矩阵的计算复杂度大,且距离矩阵为稠密矩阵,本征分解需要的计算复杂度也比较高,因此在大容量的语音识别中,并不能取得很好的识别率。LTSA[10]算法虽然能很好地探测出低维流形的空间结构,并且不要求原始数据是凸分布的,但是该算法所反映的局部结构是它的局部d维坐标系统,由于噪音等因素的影响,数据集的局部低维特征不明显时,它的局部邻域到局部切空间的投影距离往往并不小,由此构造的重建误差也不会小,这样的情况下,LTSA就无法得到理想的嵌入结果。此外,LTSA算法对样本点的密度和曲率变化比较敏感,样本点的密度及曲率[11]的变化会使得样本点到流形局部切空间的投影产生偏差。当样本量较大时,算法会失效,并且LTSA算法对新样本无法进行有效处理。
 表2是在相同的训练样本量的背景下,不同的邻近值对ISOP算法的识别率的影响,从数据分析得出,不同的k对识别率有一定影响,但并没有使识别率产生大的偏差。

 综合以上分析,在实验室条件下,本文提出的基于流形学习ISOP[12]算法在语音识别的特征提取模块得到了应用,并取得了一定成果。
 本文提出了一种基于流形学习的语音特征提取方法,实验结果表明,在数字0~9的识别中,与传统的特征提取算法相比,该方法取得了较高的识别效果。由于Isometric Projection是直接在原始数据中进行构图和多维尺度分析,因此牵涉大量高位矩阵运算而耗费了较多的时间和资源,为进一步提高性能,下一步将考虑引入主成分分析,对该算法进行改进。
 流形学习[13-14]作为一种新的机器学习,尤其在人脸识别中已取得一定成就的背景下,在语音识别领域中必将成为一个重要的发展方向。
参考文献
[1] 鲁春元.流形学习的统一框架及其在模式识别中的应用[D].广州:中山大学,2009.
[2] 李春光.流形学习及其在模式识别中的应用[D].北京:北京邮电大学,2007.
[3] 邵艳玲,葛玻,宋书中.基于判别等度规映射的人脸识别[D].洛阳:河南科技大学,2012.
[4] 王泽杰.两类非线性降维流形学习算法的比较分析[D].上海:上海工程技术大学,2008.
[5] 曾宪华,罗四维.全局保持的流形学习算法对比研究[D].重庆:重庆邮电大学,北京:北京交通大学,2010.
[6] 车士伟,吾守尔·斯拉木.浅谈连续语音识别中的关键技术[D].乌鲁木齐:新疆大学,2010.
[7] 蔡莲红,黄德智,蔡锐.现代语音技术基础与应用[M].北京:清华大学出版社,2003.
[8] 谭璐.高维数据的降维理论及应用[D].长沙:国防科学技术大学,2005.
[9] He Xiaofe, Yan Shuncheng, Hu Yuxia, et al. Face recognition using Laplacianfaces[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005,27(3):328-340.
[10] BREGLER C, OMOHUNDRO S M. Nonlinear manifold learning for visual speech recognition[C]. International Conference of Computer Vision, 1995:20-23.
[11] SEUNG H S, LEE D D. The manifold ways of perception[J]. Science, 2000, 290(5500): 2268-2269.
[12] AGRAFIOTIS D K, XU H. A self-recognizing principle for learning nonlinear manifolds[C]. Proceedings of Natl. Acad. Sci., 1999:15869-15872.
[13] TENENBAUM J B, SILVA V, LANGFORD J C. A global geometric framework for nonlinear imensionality reductiaon[J]. Science,2000,290(5500):2319-2323.
[14] He Xiaofe, NIYOGI P. Locality Preserving Projections[C]. Proceedings of 16th Conference on Neural Information Processing Systems,2003.

此内容为AET网站原创,未经授权禁止转载。