《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 设计应用 > 基于均值近邻的样本选择算法
基于均值近邻的样本选择算法
2014年微型机与应用第17期
杨 立
运城学院 公共计算机教学部,山西 运城 044000
摘要: 提出了一个基于均值近邻的样本选择算法,并且对CMU-PIE人脸数据库数据进行了样本选择,提取关键数据,结合神经网络算法进行了分类实验。实验结果证明,与传统方法相比,该方法在保持了一定的准确率的前提下,能够有效地减少样本集中的冗余信息,同时在时间复杂度方面也有了一定的提升。
Abstract:
Key words :

  摘 要: 提出了一个基于均值近邻样本选择算法,并且对CMU-PIE人脸数据库数据进行了样本选择,提取关键数据,结合神经网络算法进行了分类实验。实验结果证明,与传统方法相比,该方法在保持了一定的准确率的前提下,能够有效地减少样本集中的冗余信息,同时在时间复杂度方面也有了一定的提升。

  关键词: 样本选择;神经网络;均值近邻;人脸识别

  人工神经网络ANN(Artificial Neural Network)[1],简称神经网络NN(Neural Network),是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络是由大量神经元相互连接,通过模仿人脑或生物结构及其功能进行信息并行处理和非线性转换的复杂网络系统。随着机器学习的快速发展,如今神经网络的应用已经渗透到众多领域中,例如在智能控制、信号处理、模式识别和系统辨识等领域都得到了广泛的应用与发展。神经网络技术能够较好地实现人类对知识的存储以及对信息处理的能力,对所需解决的问题进行从记忆到联想再到推理的过程,因此可以较好地解决人脸识别中的分类问题。然而对于传统的神经网络而言,其在实际的应用过程中往往存在过拟合以及局部最优等缺点,因此也限制了神经网络更广泛的应用。

  样本[2]在神经网络的学习中占有非常重要的地位,网络的性能与训练样本的选择是密切相关的。样本集是否具有代表性,是否具有合理性,直接决定了网络的学习效果。通常人们直观地认为训练数据越多,一般越能准确反映数据内在之间的规律,然而在实际问题中,样本数据的采集与整理总会受到各种客观因素的制约,使得样本不一定能达到预计的效果。人们往往普遍把注意力放在大规模样本库的建立上,想要尽可能多地增加样本的数量,但是却忽视了当样本数据过大的情况下,训练集中的样本会出现冗余的问题。而这些冗余的数据有可能会让神经网络产生局部最优的问题,从而影响到识别率。

  因此如果在神经网络学习之前,对学习数据进行合理科学的样本选择,剔除无关样本,从而能够提高学习算法的效率与最终的识别率。

1 样本选择算法

  1.1 传统样本选择的算法

  关于样本选择的方法,当下有很多种选择。传统的样本选择的方法主要分为以下几种[3]。

  ⑴采用简单的随机选择的方法来选择样本数据,对于这种方法而言,随机的分类存在强烈的不确定性,因此不可能保证最终生成的样本具有代表性。这种方法一般只用于样本数量过于庞大不利于其他方法操作的情况。

  ⑵采用人工选择的方法来选择样本数据,该方法存在个人的主观性以及不稳定性,特别是对于大型数据而言,该方法基本起不到任何作用。这种情况一般用于样本数较少且比较直观的数据,用于直接剔除无关数据。

  ⑶另外,就是通过一个优化算法从众多备选子集中搜索训练集的最佳或近似最佳代表子集。优化算法每搜索到一个训练集的代表性子集就把它传递给分类器,分类器再返回用该子集作为训练集,并将该分类的结果回馈给优化算法[4]。重复这一过程,直到样本选择模型找到一个近似最优样本子集。最后便使用该子集作为训练样本。通常优化算法可以选择遗传算法、模拟退火算法等,而这种方法的优势是数据准确,但同时耗时较大。如果可以在可接受范围内损失一定的精度但是能大幅减小消耗时间,将是一种更好的方法。

  1.2 基于均值近邻的样本选择算法

  基于均值近邻的样本选择算法NMSS(Neighbor Mean Sample Selection)就是在待选择的训练样本中,计算样本的均值,将距离该均值最近的样本作为选中样本。再将距离该选中样本阈值范围内的样本都移动到一个空集记为待定集,并在原训练集中删除这些样本。通过不断迭代重新选择新的选中样本,直到训练集中的样本数满足预先设定的所需个数或再无阈值内可移动的样本。如若最终训练集中的样本数小于设定个数,则将待定集当作样本集继续迭代选择,最终所有样本集的集合就是选中的样本。

  1.2.1 巴氏距离

  样本之间的关系的量化可以通过类似于信息熵的指标来作为衡量的标准,例如Golub T R等人采用“信噪比”来衡量基因贡献的度量[5],对此,Golub T R等人对信噪比的定义如下:

  1.png

  其中d代表信噪比,μ1和μ2分别代表两个样本在样本集中表达水平的均值,σ1和σ2为这两个样本在样本集中表达水平的标准差。

  但对于这种情况,当两个样本的均值相等时候,标准差方面的差异就不能被表现出来。因此,选用巴氏距离作为衡量的标准[6]。在此,巴氏距离的定义如下:

  2.png

  由式(2)可知,巴氏距离既考虑到样本中的均值,也考虑到样本的方差分布,可以更全面的考虑样本之间的关系。因此NMSS算法选择用巴氏距离作为样本之间的衡量标准。

  1.2.2 基于均值近邻的样本选择算法

  综上所述,NMSS算法的流程如图1所示。

001.jpg

  ⑴初始化。设定所需选择的样本个数为1+++.png,选择阈值为1+.png,初始的样本均值向量为μ0,初始的样本集为1++++.png,初始的待定集为空集1++.png

  ⑵计算样本集中样本与μ0的巴式距离2+.png,并在样本集中搜索最小距离Bmin,将其所对应的第k个样本记为选中样本XS。计算选中样本与其余p-1个样本的巴式距离2++.png, 若3.png,则将相对应的样本由样本集S中移动到待定集G。

  ⑶如果无任何样本使得3.png,或待定集G中的样本数q<0,则退出。否则重复第二步。

  1.2.3 传统方法与NMSS算法

  与传统的通过最优解的样本选择方法相比较,NMSS算法以样本之间的巴氏距离作为衡量的标准,从近邻样本中选取少量样本当作一组代表样本。而传统的通过最优解的样本选择方法则需要通过算法计算最优解并带回到分类器中进行反复迭代测试之后才能找到满足要求的样本集。因此在可接受的精度的损失情况下,NMSS算法能够大幅提高算法效率并减少耗时。

2 实验结果分析

  人脸识别已经逐渐成为模式识别研究中的一个重大热点[7],如今有很多用于人脸识别的相关算法,如何能够提高人脸识别的效率与准确率成为人们更加热衷的研究点。

  本文在此通过人脸识别的实验来验证以上算法提出对识别效率与准确率的提高作用。在本次实验中,选择由美国卡耐基梅隆大学创建的CMU-PIE人脸数据库。该数据库包含68位志愿者的41 368张面部图像。在此本文选择其中的10位志愿者的图像,每个人包含340张不同姿态、不同光照和角度的图像。存为PGM格式,尺寸为200×200。

  实验是在CPU为 Core 2 2.26 GHz,内存为 4 GB DDR2的PC机上进行的。将样本图片尺寸压缩为32×32,并转存为MAT格式。再通过PCA算法[8]进行降维,提取特征数据。最后神经网络部分是通过Matlab的神经网络工具箱来实现的。

  实验中,将CMU-PIE人脸数据库选用的3 400张图像依据每人选取170张随机分为两组,每组共计1 700张,其中一组作为训练样本,另一组作为测试样本。

  首先按照本文之前所描述的NMSS算法,通过计算得到一个选中样本,然后将实验设置的样本选择个数从每类别第2个开始,并逐次增加。对于不同的选样个数,分别统计选样率,以及测试识别率和测试时间。当测试识别率趋于稳定且达到较高数值时,停止实验。最终汇总以上实验数据,实验结果如表 1所示。

  其中选样率=(被选中的训练样本个数/训练样本的总数) 100%;识别率=(测试样本中识别正确的样本个数/测试样本的总数) 100%。实验的数据是通过10次实验数据,进行均值计算而得到的。

002.jpg

  通过表 1 中所显示的实验结果可以得到,随着样本选择个数的增加,识别率是有一定的提高的。当选择的学习样本数达到12个样本的时候,测试识别率就可以达到100%,并形成一个稳定状态。与总计的170个样本相比,选样率只占了7.1%,直选用了较少的样本,在此不难看出,样本选择的效率还是很高的。相比较通过实验所得的最小样本数,选样个数和识别率都很接近,因此只要选择适当的阈值,就可以直接得出适合的样本个数。

  除此之外,在未使用样本选择的情况下进行实验,即学习样本为1 700个的完整样本集,并通过以上实验所得的结果,再选用随机方式选择了120个训练样本并且选用了相同的1 700个测试样本,得到的对比数据如表2所示。

003.jpg

  通过表 2 中所显示的实验对比结果可以得到,随机方式选择样本所得到的结果在识别率方面差强人意。而完整样本所得的结果在耗时上远大于本文方法所需时间,而且也需要更多的存储空间。对于NMSS方法,样本选择的耗时较小仅为0.501 s,并且识别率能达到100%。

  因此通过表1和表2的实验结果可以证明本文所提出的基于均值近邻的样本选择算法用于学习算法之前的样本选择,是有较好的效果的。

  同时,如何设省略用户设定的阈值以减少个人主观因素对算法的影响,增加自适应的相关系数,以及对样本选择的评价是下一步将要做的工作。

  本文考虑到在对于大量数据进行分类时,首先进行一种在牺牲一定精度的情况下的快速样本选择,因而提出了基于均值近邻的样本选择算法。并且通过CMU-PIE人脸数据库的实验进行了验证,其可以有效地提高训练速度,节省空间,同时保证较高的识别率。该方法不仅适合于神经网络,也可以向其他分类方法或机器学习方法扩展与延伸。

参考文献:

  [1] 贾光峰. 基于多表达式编程的神经网络自动优化方法及其应用研究[D].济南:济南大学,2009

  [2] Aroonsri Nuchitprasittichai,Selen Cremaschi. An algorithm to determine sample sizes for optimization with artificial neural networks[J]. AIChE J,2012: 593.

  [3] 周晓飞,姜文瀚,杨静宇. 基于子空间样本选择的最近凸包类器[J]. 计算机工程,2008(12):167-168,171.

  [4] 姜文瀚. 模式识别中的样本选择研究及其应用[D].南京:南京理工大学,2008.

  [5] Golub T R, Slonim DK,Tamayo P.Molecular classification of cancer: class discovery and class prediction by gene expression monitoring[J]. Science, 1999, 286(5439): 531-537.

  [6] Theodoridis S, Koutroumbas K. Patter recognition [M]. Second Edition, NewYork:Academic Press, 2003.

  [7] Samal A, Iyengar P A. Automatic recognition and analysis of human faces and facial expressions: a Survey[J]. Pattern Recognition, 1992, 25(1): 65-77

  [8] 伊力哈木?亚尔买买提. 基于改进型PCA和LDA融合算法的人脸图像识别[J]. 计算机仿真,2013(1):415-418,426.


此内容为AET网站原创,未经授权禁止转载。