《电子技术应用》

基于卷积神经网络的智能冰箱果蔬图像识别的研究

2017年微型机与应用第8期 作者:曾维亮1,林志贤1,陈永洒2
2017/5/27 20:04:00

  曾维亮1,林志贤1,陈永洒2

  (1.福州大学 物理与信息工程学院,福建 福州 350116;2.TCL集团工业研究院,广东 深圳 518055)

        摘要:智能冰箱物体识别主要涉及对水果和蔬菜的识别,冰箱中果蔬数量繁多,光照不均,环境复杂,对此提出了一种用于处理该类识别问题的卷积神经网络。网络采用ReLU作为激活函数,它比传统的Sigmoid函数具有更强的稀疏能力和更大的梯度值,能够极大地加速网络收敛。隐含层中引入随机Dropout,使得某些节点不工作,减少节点间的“共同适应”,降低网络对某一局部特征的过拟合,可减少网络计算复杂度并有效提升识别率。网络采用带动量项的基于梯度下降的反向传播算法,避免网络陷入局部极小值,提高识别率。最后通过用Supermarket Produce Dataset数据集模拟冰箱果蔬图像进行实验,验证了本文方法的有效性。

  关键词:卷积神经网络;果蔬识别; Dropout;梯度下降

  中图分类号:TP391.4文献标识码:ADOI: 10.19358/j.issn.1674-7720.2017.08.018

  引用格式:曾维亮,林志贤,陈永洒.基于卷积神经网络的智能冰箱果蔬图像识别的研究[J].微型机与应用,2017,36(8):56-59.

0引言

  *基金项目:国家重点研发计划课题(2016YFB0401503);福建省科技重大专项(2014HZ00031);广东省科技重大专项(2016B090906001);福建省资助省属高校专项课题(JK2014002)智能冰箱的果蔬识别可收集用户果蔬产品的消耗情况,利用该数据分析出用户喜好,商家可通过终端APP适时向用户做出果蔬产品推荐,或提醒用户尽快食用即将过期的食品。目前智能冰箱的物体识别方法主要有:用户手动输入或语音输入食物种类、无线射频识别扫描[1]、条形码或二维码扫描[2]等技术。针对果蔬图像识别,BOLLE R M等人[3]等通过提取图像的颜色、纹理统计特征,首次实现了随意摆放农产品的识别与分类。ROCHA A等人[4]比较了和差直方图(Unser)、颜色聚合向量(Color Coherence Vector,CCV)、内外点颜色直方图(Border/Interior pixel Classfication,BIC)等纹理、颜色特征,采用Kmeans与自底向上聚类(Bottomup Clustering Procedure)方法对这几类特征进行识别,同时指出采用特征融合的办法可以取得更好的效果,但是该方法不能很好地表现果蔬纹理的差异性,且对外界光照较敏感。Zhang Yudong等人提出利用Unser、RGB颜色直方图、外形等作为识别特征,采用多核SVM进行果蔬产品识别[5],取得了较好的识别效果,但是多核支持向量机训练时间长,成本较大。ROCHA A等人[6]后期继续采用特征融合的方法对果蔬识别技术进行了优化。陶华伟等人[7]提出一种基于颜色完全局部二值模式来提取物体纹理特征的方法,提高了智能果蔬系统的识别率。以上对果蔬图像识别的研究均属于人工提取特征的范畴。

  LECUN Y等人[8]提出的LeNet5卷积神经网络在数字识别中取得了巨大的成功,随后以该模型为代表的卷积神经网络被应用到车牌识别、手写数字识别、视频人体动作识别[9]、人脸特征点的检测[10]等众多领域。KRIZHEVSKY A等人[11]提出的网络模型在ImageNet数据集上达到了83.6%的识别率,更是引起了广泛的关注。李思雯等人[12]利用集成的卷积神经网络识别智能冰箱果蔬种类,但是融合多个模型的方法比较复杂、参数较多,容易出现“过拟合”。本文提出一种用于识别冰箱果蔬种类的卷积神经网络,网络采用ReLU做为激活函数,避免出现饱和状态,加速网络收敛。而在隐含层加入随机Dropout,使得网络结构更加“稀疏”,减少了神经元的相互依赖性。卷积神经网络对特定的遮挡、光照、平移、旋转、缩放及其他形式的扭曲都具有良好的鲁棒性,非常适合用于处理该类果蔬识别问题,因此成为了近年该方向的研究热点。

1卷积神经网络

  卷积神经网络是可以直接以2D图像作为输入的深度神经网络,它主要包括特征提取和分类器两部分。特征提取模块由卷积层和降采样层交替组成,卷积层通过卷积滤波的方式获取图像的有用特征,降采样层通过对卷积层的数据采样降维,减少了数据处理量。这种从隐含层逐层地自主选取图像由边、颜色等低层到角点、形状等高层特征的方式,避免了人工提取特征的繁琐与片面,使网络具有自主选取特征并进行学习与识别的能力。最后利用分类器对提取到的特征进行识别分类,分类器通常使用一层或两层的全连接神经网络实现。

  1.1LeNet-5网络模型

  经典的LeNet5模型由输入层、两层卷积层、两层降采样层、两层全连接网络以及输出层组成,LeNet5网络模型结构如图1所示。

001.jpg

  在卷积层中,输入图像通过j个不同的卷积核卷积,生成j个不同的特征图,运算过程如式(1)所示。

  (H_)789ED52WR)IY4DG]`CH.png

  式中,xlj表示在l层(卷积层)的第j个特征图,f(·)表示激活函数,Mj代表输入图像的集合,b代表偏置因子。

  降采样层的运算过程如式(2)所示。

  N~UOHW(B_PTSU42RH3XF%S6.png

  式中:down(·)表示mean pooling降采样,即输入图像中每个不同的n×n区域求和再求平均作为输出图像的一个点,使得输出图像在不同维度都缩小为原来的1/n。每个输出图像都有不同的乘积因子β以及偏置因子b。

  分类器的第一层是与上层降采样层的所有特征图全连接的卷积层,因输入大小为5×5,而卷积核的大小也为5×5,故可以看作是全连接层。分类器第二层计算输入向量和权重之间的点积,然后通过激活函数最终产生输出层单元的一个状态,决定识别结果。

  1.2基于ReLU激活函数的卷积神经网络

  卷积神经网络中常见的激活函数包括Sigmoid函数f(x)=(1+e-x)-1和双曲正切函数f(x)=tanh(x),这两种函数均属于饱和非线性函数,收敛速度较慢。本文采用非饱和线性修正单元(Rectified Linear Units,ReLU),即f(x)=max(x),该函数通过线性修正的方式,强制某些数据为零,使得模型具有适度的稀疏表达。ReLU函数梯度值大,在反向传播阶段,能够防止梯度传播到前几层网络时弥散消失,性能比传统的激活函数优良,并且ReLU的单边抑制更符合生物学的观点,其连接网络的过程如图2所示。

002.jpg

  1.3基于随机Dropout的CNN网络

  卷积神经网络模型在训练阶段受样本库容量影响大,在样本数量有限的情况下要防止模型出现“过拟合”。本文网络结构引入随机Dropout,即随机“冻结”某些神经元,在网络训练过程中保留其当前的权值,同时将输出设定为0,而这些被选择的神经元在下次训练过程中又会恢复之前保留的取值,并再次随机选择部分神经元重复此过程。随机Dropout可以避免每两个神经元同时产生作用,从而使权值的更新不再依赖于有固定关系隐含节点的共同作图3加入Dropout的

  隐含层示意图用,即神经网络的结构在每次训练过程中都发生变化。这种方式降低了神经元之间的依赖,有效提高了神经网络的泛化能力,因此能学习到鲁棒性更强的特征。本文随机设定两个卷积层的30%的神经元输出为零,如图3所示。

003.jpg

  1.4带动量因子的梯度下降反向传播算法

  本文训练过程中网络的权值更新基于带动量因子的梯度下降反向传播算法,权重更新规则如式(3)、(4)所示。

  vi+1=αvi-ληωi-η(Lω│ωi)Di(3)

  ωi+1=ωi+vi+1(4)

  式中:i为迭代次数;η为学习率;λ为权重衰减因子;ω表示权重向量;α为动量项,增加动量项的目的是为了避免网络训练陷于较浅的局部极小值点,并且能够加快网络收敛的速度;η(Lω│ωi)Di为第i批训练样本Di的损失函数在权值为ωi时关于ω的导数的平均值。

  1.5本文的卷积神经网络模型

  本文卷积神经网络结构如图4所示,分别为输入层、两层卷积层、两层降采样层、全连接层、输出层。卷积:输入图像经过一个可训练的滤波器进行卷积,得到卷积层的特征图。降采样:对卷积层的特征图中每个2×2的邻域求平均得到降采样层的一个值,因此降采样层的特征图在各个维度都缩小为卷积层特征图的1/2。全连接:将最后一层降采样层的特征图展开成一个向量,乘上加权并通过激活函数得到输出层神经元。

  

004.jpg

  网络模型各层采用的参数如表1所示。

007.jpg

2实验及结果分析

  2.1数据集

  冰箱中果蔬种类、数量繁多,摆放无规则,果蔬视角多变,光照不均,情况十分复杂。采用Supermarket Produce Dataset[10]数据集模拟冰箱获取的图像进行实验,该数据集共有15类、2 633张冰箱中常见果蔬的图像,每类果蔬图像数量为75~264张不等,图像尺寸为1 024×768。为了使各类图像数据整齐并相对均衡,采取随机复制的方式使得数据集的几类果蔬增加了167张图像,并在这些图像中加入高斯白噪声。因此修正的数据集共有15类、2 800张果蔬图像,分别为土豆(黄)、土豆(红)、腰果、小毛桃、富士苹果、青苹果、香瓜、猕猴桃、油桃、洋葱、橘、李子、梨、青桔、西瓜。

  2.2实验方法

004.jpg

  本文构建了如图4所示的卷积神经网络模型,各层的参数如表1所示。输入图像尺寸为28×28,因此应先将图像裁剪并等宽高地缩小为1∶1的尺寸,等宽高地缩小是为了防止图像畸变而丢失重要特征信息。采用批量随机梯度下降法(Minibatch Stochastic Gradient Descend,Minibatch SGD)迭代200次(200 epochs),对每次epoch,每输入10个样本训练后,进行反向传播并更新一次权值。本文设定学习率η的初始值为0.1,待识别率没有显著上升或者上升趋势变慢时,将学习率η变为原来的1/2;动量项α设值为0.6;权重衰减因子λ设为0.000 5;实验采用留出法(holdout)划分数据集,随机选取2 240张图像作为训练集,其余的560张作为测试集。

  2.3实验结果与分析

  2.3.1各类果蔬识别的混淆矩阵

  图5为本文方法测试各类果蔬识别正确率的混淆矩阵。矩阵对角线位置颜色较深方块中的数据为Y轴对应果蔬的识别率,其余较淡色方块的数据为Y轴对应果蔬被错误识别为X轴对应的果蔬的识别率。从混淆矩阵中可以看出猕猴桃易被误识别为青苹果,梨易被误识别为土豆(黄)。从数据集图像中可发现这几类水果客观上外形比较相似;其余腰果、洋葱、富士苹果,香瓜、洋葱、橘、李子、青桔等识别率较高,特别地香瓜和橘能够达到100%的正确率。即本文的卷积神经网络模型和参数对该类果蔬识别问题能达到一个较好的识别效果。

005.jpg

  2.3.2采用Sigmoid和ReLU做为激活函数的识别率对比图

  图6为网络采用Sigmoid函数和ReLU函数迭代200次的收敛速度对比图,其中实线为ReLU激活函数的识别率曲线,点实线为Sigmoid激活函数的识别率曲线。从图中可以发现采用ReLU函数前期收敛速度更快;网络趋于稳定时,采用ReLU激活函数的整体识别率约为83.4%,远高于Sigmoid函数的识别率67.7%,因其能够有效地防止网络出现“过拟合”,故能够在较大程度上提高果蔬的识别率。

  

006.jpg

  2.3.3网络加入随机Dropout与否的识别率对比图

  图7分别为网络加入随机Dropout与否的200次迭代后的识别率曲线图,其中实线为加入随机Dropout比例为30%时得到的识别率曲线,点实线为未加入Dropout的识别率曲线。网络趋于稳定时,加入随机Dropout的整体识别率约为83.4%,未加入随机Dropout的整体识别率约为79.3%,识别率提高了4.1%。引入一定比例的随机Dropout可以使得网络更加稀疏,减少了神经元之间的共同作用,在一定程度上能够提高果蔬的识别率,并且网络“抖动”更小,鲁棒性更强。

3结论

  本文通过构建卷积神经网络模型对果蔬图像进行识别,网络采用ReLU线性函数作为神经元的激活函数,加快了网络的收敛,提高了训练效率及识别率。而在隐含层引入一定比例的Dropout,使网络具有更好的泛化能力。今后将研究输入较大的图像尺寸,使得特征信息更加丰富,并将颜色信息加入到网络中,研究颜色对果蔬图像识别的影响以及在现有网络结构上继续改进达到提高识别率的效果,从而有效地处理该类识别问题。

参考文献

  [1] Gu Hanshen,Wang Dong. A content-aware fridge based on RFID in smart home for homehealthcare[C].Proceedings of the 11th International Conference on Advanced Communications Technology,Beijing,IEEE,2009:987-990.

  [2] 戴杨,于盛林.二维条形码编码与译码的计算机实现[J].数据采集与处理,2003,18(3):356360.[3] BOLLE R M,CONNELL J H,HASS N,et al. Veggievison:a produce recognition system[P].United States:US 5546475A, 199608-13.

  [4] ROCHA A,HAUAGGE D C,WAINER J,et al. Automatic produce classification from images using color,texture and appearance cues[C]. 21st Brazilian Symposium on Computer Graphics and Image Processing, CampoGrande,Brazil,IEEE,2008:3-10.

  [5] Zhang Yudong,Wu Lenan. Classification of fruits using computer vision and multiclass support vector machine[J].Sensors,2012,12(9):1248912505.

  [6] FARIA F A,dos SANTOS J A, ROCHA A,et al. Automatic classifier fusion for produce recognition[C].25th SIBGRAPI on Graphics,Patterns and Images,OuroPreto,Brazil,IEEE,2012:20-25.

  [7] 陶华伟,赵力,奚吉,等.基于颜色及纹理特征的果蔬种类识别方法[J]. 农业工程学报,2014,30(16):305-311.

  [8] LECUN Y,BOTTOU L,BENGIO Y,et al.Gradientbased learning applied to document recognition[C].Proceedings of the IEEE 86,1998:2278-2324.

  [9] Ji Shuiwang,Xu Wei,Yang Ming,et al.3D convolutional neural networks for human action recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-231.

  [10] Sun Yi, Wang Xiaogang,Tang Xiaoou. Deep convolutional network cascade for facial point detection[C].2013 IEEE Conference on Computer Vision and Patten Recognition(CVPR),IEEE,2013:3467-3483.

  [11] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C].Advances in Neural Information Processing System 25:Proceeding of the 26th Annual Conference on Neural Information Processing Systems,Lake Tahoe,USA,2012:1097-1105.

  [12] 李思雯,吕建成,倪胜巧.集成的卷积神经网络在智能冰箱果蔬识别中的应用[J].数据采集与处理,2016,18(3):205-212.


继续阅读>>