《电子技术应用》
您所在的位置:首页 > 通信与网络 > 设计应用 > 基于卷积神经网络的人脸表情识别
基于卷积神经网络的人脸表情识别
2015年微型机与应用第12期
徐 鹏,薄 华
(上海海事大学 信息工程学院,上海 201306)
摘要: 传统的神经网络表情识别系统由特征提取和神经网络分类器组成,利用人的经验来获取模式特征,很容易丢失表征表情特征的细节信息。提出一种基于卷积神经网络的识别方法,避免了对图像进行复杂的特征提取,直接把图像数据作为输入。通过在Cohn-Kanade表情库上的实验结果表明,该方法能够取得很好的表情分类效果。
Abstract:
Key words :

  摘  要: 传统的神经网络表情识别系统由特征提取和神经网络分类器组成,利用人的经验来获取模式特征,很容易丢失表征表情特征的细节信息。提出一种基于卷积神经网络的识别方法,避免了对图像进行复杂的特征提取,直接把图像数据作为输入。通过在Cohn-Kanade表情库上的实验结果表明,该方法能够取得很好的表情分类效果。

  关键词: 卷积神经网络;人脸表情识别

0 引言

  表情识别已成为人类交流甚至人机交互过程的一个重要研究课题。关于面部表情识别的研究能帮助人们建立更加智能化和交互性良好的计算机系统。1971年,EKMAN P和FRIESEN W V研究了6种基本表情:高兴、悲伤、惊讶、恐惧、愤怒和厌恶,并系统地建立了上千幅不同的人脸表情图像库[1]。由于人机交互研究的不断深入和巨大的应用前景,表情识别一直是模式识别和人工智能领域的一个研究热点。

  在过去的几十年内,研究者已经提出了很多基于神经网络(Back Propagation algorithm,BP)面部表情识别的方法。典型的多层神经网络(MLP)一般包括1~2个隐藏层,单纯采用BP算法进行训练[2]。有研究表明,增加MLP的隐藏层并不能提高网络的性能,甚至会大大降低,另外BP算法容易陷入局部最小值[3],而且识别效果的好坏取决于人工选择的特征是否合理。人工选取特征是一件费时、费力的方法,为了达到好的效果需要大量的特征,甚至需要依赖专业知识,有些领域难以实现。特征的数量和质量成为识别系统发展的瓶颈。

  为解决上述问题,本文提出一种基于卷积神经网络的识别方法,直接在输入表情图像上自动地学习多层特征和分类。实验证明,基于卷积神经网络的表情识别有较高的精度和很好的鲁棒性。

1 卷积神经网络

  1988年,LECUN Y等人[4]提出的卷积神经网络(Convolutional Neural Networks,CNN)是第一个成功训练多层网络的学习算法。CNN作为深度学习模型的一种,通过局部空间映射关系减少需要训练的参数数目来提高反向传播算法的训练性能。2012年,HINTON G E等人[5]将CNN应用于ImageNet(图像识别目前最大的数据库)上,采用deep net结构,最终取得了非常惊人的结果,其结果相对原来方法好了很多(前5个错误率由25%降低为17%)。由于CNN可以直接从原始图像中学习模式特征,避免了复杂的特征提取和数据重建过程,已成功应用于手写字符识别[6]、人脸识别[7]、人眼检测[8]、车牌字符识别[9]、交通信号识别[10]等众多应用领域。CNN的结构框架和理论推导可参阅参考文献[11]。

2 基于卷积神经网络的算法结构设计

  本文采用6层结构的卷积神经网络,包括2层卷积层(C)、2层抽样层(S)和1层全连接层(F),如图1所示。

001.jpg

  CNNs网络模型学习步骤如下:

  (1)在C1层做卷积操作,本文使用5×5的窗口对输入图像进行卷积操作,在这一层,如果需要,还会进行包括图像归一化(本文将图像大小归一化为64×64)。本文在该层设置5幅特征图,此时特征图的大小为60×60。

  (2)在S2中对C1进行抽样,抽样窗口设置为2×2,此时特征图数目不变仍为5幅,大小为30×30。

  (3)C3设置了9幅特征图,对S2进行卷积,用5×5的卷积核,此时特征图大小为26×26。

  (4)在S4层对C3抽样窗口设置为2×2,此时该层特征数目仍为9,大小为13×13。

  (5)通过全连接到F5层,设置神经元个数,神经元的个数通常与分类的类别数有关,因此在输出层F6设置6个神经元。

  (6)设计好网络结构后,用反向传播算法,求取网络的解。

  (7)当得出所有未知参数后,输入一幅图像,在网络输出层会给出输出类别。

3 实验结果及分析

  本文选取的实验样本包括两个部分:Cohn-Kanade表情库和自拍的表情图像。其中,Cohn-Kanade表情库包含的图像总数为1 825幅,分为愤怒(386幅)、惊讶(360幅)、厌恶(265幅)、恐惧(255幅)、高兴(300幅)、悲伤(259幅)共6类;自拍的表情图像包含的图像总数为1 264幅,分为愤怒(211幅)、惊讶(215幅)、厌恶(204幅)、恐惧(214幅)、高兴(210幅)、悲伤(210幅)6类。

  为了验证本文方法的有效性,分别进行3组实验。

  (1)用Cohn-Kanade表情库的样本进行训练和测试,一部分表情为训练样本,一部分表情为测试样本,且来自不同的人;每种表情均选择其中90%作为训练样本,10%作为测试样本,循环10次,将10次的平均误差作为测试结果,且实验中参加训练和测试的表情来自不同的人。测试结果如表1所示。

003.jpg

  由表1可以看出,在Cohn-Kanade表情库测试的识别率达到90%以上,实验证明,不做特征提取的卷积神经网络表情识别系统具备正确率高、泛化能力较强的能力。

002.jpg

  图2显示了输入表情图像在卷积神经网络前几层产生的特征图,最左侧是输入人脸表情图,从左到右依次是输入层、C1层、S1层、C2层、S2层。从图中可以看出,神经网络可以很好地提取表情特征。

  (2)为了验证该算法的鲁棒性,这部分实验采用自拍的图像作为测试图像。参加训练的表情图像仍然来自Cohn-Kanade表情库,测试表情来自实验室拍摄视频剪辑成的图像。测试结果如表2所示。

004.jpg

  由表2可知,自拍表情方案的识别结果普遍较低,由于缺少充足的先验知识,并且亚洲人和欧美地区人的表情存在差异性,因此识别率偏低。

  (3)为了提高识别率,将自拍图像与Cohn-Kanade表情库的图像合并,然后重复第一个实验的方法,将合并后的表情库图像的90%作为训练样本,10%作为测试样本,循环10次进行训练和测试,得到测试结果为10次的平均值。测试结果如表3所示。

005.jpg

  由表3可知,部分表情识别率有所提高,而另一部分有所下降,平均识别率基本持平。实验表明,卷积神经网络能够学习到样本的共征,后一种情况间接证明了第二个实验的结论。

4 结论

  卷积神经网络在处理二维图像时有多个独特优点:(1)无需复杂的特征提取;(2)可以将二维图像直接输入到神经网络中,大大减少了预处理的难度;(3)局部野和权值共享技术减少了参数空间,大幅度降低了算法的复杂度;(4)次抽样技术增强了网络的鲁棒性,能容忍图像一定程度的畸变。本文将卷积神经网络的算法用于人脸表情的识别,实验结果显示该方法有较高的识别率和较好的鲁棒性。为了提高自拍图像的识别率,下一步除了建立一个更丰富的表情库之外,需要进行将不同的卷积神经网络试验,寻找更适应表情识别的卷积神经网络结构。

  参考文献

  [1] EKMAN P, FRIESEN W V. Constants across cultures in the face and emotion[J]. J Pers Soc Psychol 1971, 17(2): 124-129.

  [2] RUMELHART D E. Parallel distributed processing: exploration in the microstructure of cognition[M]. Cambridge, MA: MIT Press, 1986.

  [3] 韩力群.人工神经网络理论、设计及应用[J].北京:化学工业出版社,2001.

  [4] LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural computation, 1989,1(4):541-551.

  [5] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]. Advances in Neural Information Processing Systems 25 (NIPS′2012),2012.

  [6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient basedlearning applied to document recognition[C]. Proceedings of the IEEE, Berlin: IEEE,1998,86(11):2278-2324.

  [7] LAWRENCE S, LEE G C, TSOI A C, et al. Face recognition: a convolutional neural network approach[J].IEEE Transonactions on Neural Networks,1997,8(1):98-113.

  [8] TIVIVE F H C, BOUZERDO W N A, et al. An eye feature detector based on convolutional neural network[C]. Proceedings of the Eighth International Symposium on Signal Processing and Its Applications, 2005,1:90-93.

  [9] 赵志宏,杨绍普,马增强,等.基于卷积神经网络LeNet-5的车牌字符识别研究[J].系统仿真学报,2010,22(3):638-641.

  [10] 陈先昌.基于卷积神经网络的深度学习算法与应用研究[D].杭州:浙江工商大学,2013.

  [11] BOUVRIE J. Notes on convolutional neural networks[J].  Neural Nets, 2006.


此内容为AET网站原创,未经授权禁止转载。