《电子技术应用》

联合部件特征与增强SVM的行人检测算法

2017年电子技术应用第4期 作者:欧中亚1,2,山田宏尚2
2017/5/24 13:53:00

欧中亚1,2,山田宏尚2

(1.河南经贸职业学院 信息管理系,河南 郑州450046;2.日本岐阜大学 工学研究科,日本 岐阜5011193)


    摘  要: 为解决遮挡、姿态变化等局部变化引起的行人检测性能下降问题,提出一种融合全局和局部特征的行人检测方法。首先,将人体分为全局和局部6个部件;然后,改进Haar-like特征描述子,用于快速提取人体局部部件特征,再融合全局部件的方向梯度直方图特征,构建人体的联合部件特征。最后,结合增强学习思路改进支持向量机学习方法,对联合部件特征进行训练和分类。实验结果表明,该方法正确率高,虚警率低,受遮挡、姿态变化影响小。

    关键词: 行人检测;方向梯度直方图;Haar-like;支持向量机;增强学习

    中图分类号: TN101;TP391

    文献标识码: A

    DOI:10.16157/j.issn.0258-7998.2017.04.034


    中文引用格式: 欧中亚,山田宏尚. 联合部件特征与增强SVM的行人检测算法[J].电子技术应用,2017,43(4):133-137.

    英文引用格式: Ou Zhongya,Hironao Yamada. A pedestrian detection method combining joint components features and boost SVM[J].Application of Electronic Technique,2017,43(4):133-137.

0 引言

    行人检测技术的关键是提取人体结构特征和设计分类器,常用特征有Haar-like[1]、方向梯度直方图(Histogram of Oriented Gradients,HOG)[2]等,分类器有Adaboost[3]、支持向量机(Support Vector Machines,SVM)[4]、深度网络[5]等。如文献[6]采用改进的Haar-like特征和Adaboost分类器提高实现快速可靠的行人检测,文献[7]采用优化的HOG特征和SVM分类器实现复杂交通场景下的多分辨率行人检测,文献[8]采用深度学习方法降低行人检测的虚警率。然而在街道、会场等监控场景,人体部分区域会被遮挡,且姿态也会变化,导致现有行人检测方法的检测性能下降。为了提高遮挡、姿态变化条件下的行人检测性能,本文提出一种联合部件特征的增强SVM检测方法,联合人体全局和局部部件提取特征并进行分类,提高行人检测性能。

1 本文方法

    遮挡或姿态变化只会对人体部分部件产生影响,而其他部件特征仍具有行人鉴别功能。基于这一思路,本文对人体部件进行划分,融合局部部件和全局部件的特征来描述人体,有针对性地设计特征提取与分类方法,目标是提高遮挡、姿态变化条件下的行人检测性能。

1.1 人体部件划分

    在监控场景中,人体的上肢与躯干部分经常存在大面积重合,如图1(a)所示,故人体的上肢部件可以合并在躯干部件中。躯干部件可能会存在部分遮挡,故将人体躯干等分为左右两部分,得到两个部件c2和c3,如图1(b)所示。监控场景中人体的头部部件和两腿部件非常显著,故将其划分出来,如图1(b)中的c1、c4和c5。通过提取人体局部部件的特征进行人体检测,可以降低遮挡对全局人体检测的影响。但是,人体全局特征仍然是人体检测的有效特征,其区分人体与非人体的能力要优于局部部件特征,故本人仍保留人体全局部件,如图1(b)中的c6。这样,本文将人体分为6个部件,分别是头部、左躯干、右躯干、左腿、右腿和全身部件。综合利用人体全局和局部部件的特征进行人体检测,可以有效解决遮挡、姿态变化等引起的人体检测性能下降问题。

jsj2-t1.gif

1.2 联合部件特征提取

    Haar-like特征和HOG特征是目前人体检测领域常用的特征描述子。相对而言,HOG特征的优势是区分能力强,而Haar-like特征的优势是计算效率高。本文针对前一节划分的人体局部部件,提出一种适应姿态变化的改进Haar-like特征。对于全身部件,本文仍采用HOG特征进行描述。通过融合这两类特征构建联合部件特征,用于描述人体结构。

    (1)局部部件特征提取

    当人体受到遮挡时,人体的全局特征必然会受到一定影响,从而引起人体检测器的检测性能下降。然而,遮挡不可能遮蔽所有人体部件,如图1(b)中人体局部部件c1~c5不可能都被遮挡,这样情况下,那些没有被遮挡的局部部件的特征可以用来检测人体。但是,相对于人体的全局特征,局部特征毕竟仅反映了人体的某一个局部的特性,其区分能力不如全局特征。因此,局部特征在人体检测过程中仅作为辅助特征,本文以计算效率高的Haar-like特征为基础来描述人体的局部部件。

    传统的Haar-like特征计算效率高的主要原因是采用积分图方法快速计算矩形区域的亮度累加和。但前提是区域必须是矩形的。然而,人体姿态的变化很大,矩形区域难以适应各种姿态的人体部件描述,尤其是腿部部件。为此,本文对传统的Haar-like特征进行改进,目标是快速提取平行四边形区域的人体部件特征。详细描述如下。

    特征提取阶段最耗时的步骤是计算每一个区域的亮度累加和,因为这一步骤要在不同的尺度图像上重复多次。为了提高运算效率,关键是避免多尺度上的重复计算。为此,首先对全图计算一次亮度累加和,并将一个平行四边形区域的累加和存储到一个累加和表(TP)中。然后通过计算如图2所示的黑白平行四边形区域之间的亮度累加和之差来求取改进的Haar-like特征。由图2可见,本文使用的改进Haar-like特征类型与传统的Haar-like特征类型不同,主要区别在于采用平行四边形区域来代替传统的矩形区域,以便于适应人体部件的姿态变化。

jsj2-t2.gif

    如图2所示,改进的Haar-like特征类型共有4类,每一类的亮度累加和计算方法不同,对于图2(a)所示的第一类Haar-like特征,按从左上角到右下角的顺序计算图像的亮度累加和TP(1),表示为:

jsj2-gs1-4.gif

    图2(d)所示的第四种特征类型的亮度累加和TP(4)可以表示为:

     jsj2-gs5.gif

其中,H表示图像的高度。

    每一个TP表中的值用于计算一个平行四边形区域的亮度累加和。采用TP的优点在于,只需要4次遍历即可计算出每一个平行四边形的改进Haar-like特征。譬如,平行四边形SP的第一类改进Haar-like特征的计算公式为:

     jsj2-gs6.gif

其中,(x,y)表示图像中一个区域的左上角位置,w和h分别表示区域的宽度和高度。

    类似地,平行四边形SP的第二类改进Haar-like特征的计算公式为:

     jsj2-gs7.gif

    平行四边形SP的第三类改进Haar-like特征的计算公式为:

     jsj2-gs8.gif

    平行四边形SP的第四类改进Haar-like特征的计算公式为:

     jsj2-gs9.gif

    (2)全局部件特征提取

    对于图1(b)中的人体全身部件c6,本文仍采用HOG特征来进行描述,实现步骤详见文献[2]。

    (3)联合部件特征构建

    对于一幅图像或一个图像块,为了便于进行人体部件分块,采用图3所示的简单分块方法,具体地,图像块的上1/4区域用于提取头部部件c1的局部扩展Haar-like特征v1;在接下来的3/4区域中,左边一半区域用于提取左躯干部件c2的局部扩展Haar-like特征v2,右边一半区域用于提取右躯干部件c3的局部扩展Haar-like特征v3;在图像的下半区域内,左边一半区域用于提取左腿部件c4的局部扩展Haar-like特征v4,右边一半区域用于提取右腿部件c5的局部扩展Haar-like特征v5;最后,提取整个图像块的全局HOG特征v6。这样,图像块的联合部件特征向量可以表示为v={v1,v2,v3,v4,v5,v6}。

jsj2-t3.gif

1.3 增强SVM学习

    增强学习可通过组合弱分类器构建区分能力更强的强分类器。本文在常用的SVM分类器的基础上,提出一种增强SVM学习方法,对人体的联合部件特征进行训练和分类。

    给定一个训练集D={(vi,yi)|i=1,…,n},其中,n为样本总数,vi表示图像块i的特征向量,yi表示该特征向量对应的类标签,yi=1表示vi属于人体,yi=-1表示vi属于背景。SVM方法训练的目标是寻找一个最优的分类超平面。这一过程本文不再赘述,详见文献[4]。

    对于第t个SVM检测器,检测器的输出得分可以表示为φt(v)。本文采用增强学习的思路,对各部件的SVM分类得分进行加权求和,组建更强的检测器,表示为:

jsj2-gs10-12.gif

    检测器训练的伪代码如下所述。其中,检测正确率下限dmin设为60%。

jsj2-gs10-12-x1.gif

    在特征分类时,依据联合检测器存储的权重系数计算输入特征的输出符号,判别特征类别,具体过程详见文献[4]。

2 仿真实验

2.1 实验数据集及性能评价指标

    行人检测数据集比较多,本文选用常用的INRIA和Caltech数据集。INRIA数据集包含训练数据集和测试数据集两部分,训练数据集共包含3 679幅图像,其中包含行人的图像为2 416幅。测试数据集共包含图像1 585幅,其中包含行人的图像为1 132幅。每幅图像中仅有一个行人,且大都为直立人体。Caltech数据集源自真实街区场景拍摄的视频,视频集中的行人都处于自然的状态,常存在遮挡和姿态变化,因此行人检测难度较大。该视频集的分辨率为640×480,帧率为30 f/s。其中,标记的行人数量有2 300个。

    本文在INRIA的训练数据集上训练分类器,然后分别在INRIA的测试数据集和Caltech数据集上进行行人检测测试,选用检测正确率和虚警率两个指标来进行性能评价。其中,检测正确率(DR)可以表示为检测到的行人数量与行人总数的比值;虚警率(FA)可以表示为检测到的背景数量与检测到的所有目标数量的比值。同时,本文也对算法的运算效率进行定量评价,评价指标是平均检测耗时(ADT)。所有对比实验都在相同的计算机平台上进行,计算机环境为:Intel Core-i5 CPU 3.20 GHz、16 GB RAM、Visual Studio 2012和OpenCV 2.48开发平台、Windows 7 64位操作系统。

2.2 不同人体部件的检测性能分析

    本文通过联合人体不同部件的特征来提高遮挡、姿态变化条件下的行人检测性能。为了验证联合部件特征的有效性,将其与不同部件单独的行人检测指标进行对比。图4给出了两个数据库下的行人检测指标对比结果。

jsj2-t4.gif

    单独分析图4(a)和图4(b),很明显本文使用的联合部件的检测正确率指标高于各独立部件,尤其是虚警率指标远低于独立部件。而且,通过对比图4(a)和图4(b)可以发现,当人体遮挡、姿态变化较多时,由于独立部件可能被遮挡,导致检测正确率指标下降严重。而联合部件中总有部件不被遮挡,故性能指标并没有太大变化。从图4中还可以发现,全身部件的独立检测性能要优于局部部件的独立检测性能,尤其是虚警率指标优势明显。因为局部部件的区分能力不强,易将背景误识为目标。但联合部件通过融合局部部件和全身部件的特征,增强了特征的区分能力,在提高检测正确率指标的同时还大幅降低了虚警率指标。因此,联合部件的检测性能要优于各独立部件。

2.3 不同方法的检测性能分析

    为了进一步验证本文方法的行人检测性能,将本文方法与文献[6,7,8]中所述行人检测方法进行对比实验。图5给出了对比实验结果。

jsj2-t5.gif

    从图5可以看出,在两个数据集上测试时本文方法的检测正确率指标都高于其他3种方法,同时虚警率指标明显低于其他3种方法。尤其是在Caltech数据集上,其他3种方法的检测正确率指标下降明显,原因是Caltech数据集上的人体存在遮挡和姿态变化,降低了人体全身特征的区分能力。而本文方法采用联合部件特征和增强SVM学习方法来检测人体,受遮挡和姿态变化的影响较小。

    表1给出了4种方法的ADT指标对比,可见本文方法的平均检测耗时略高于文献[6]所述方法,低于其他2种方法。但从DR和FA指标来看,本文方法与文献[6]所述方法相比优势明显。综合评价,本文方法的行人检测性能优于其他3种方法。

jsj2-b1.gif

3 结束语

    本文针对人体局部特征变化引起的行人检测性能下降问题,提出了一种结合联合部件特征与增强SVM的行人检测方法。设计思路是将人体分成多个局部部件,这样,部分局部部件受遮挡、姿态变化影响时不会影响其他局部部件的检测性能。实验结果表明,采用本文方法进行行人检测的检测正确率高,虚警率低,且受遮挡和姿态变化的影响小。后续研究重点是进一步提高本文方法的运算效率。

参考文献

[1] HOANG V D,VAVILIN A,JO K H.Pedestrian detection approach based on modified Haar-like features and AdaBoost[C].International Conference on Control,Automation and Systems,2012:614-618.

[2] HOANG V D,LE M H,JO K H.Hybrid cascade boosting machine using variant scale blocks based HOG features for pedestrian detection[J].Neurocomputing,2014,135(8):357-366.

[3] DOLL?魣R P,APPEL R,KIENZLE W.Crosstalk cascades for frame-rate pedestrian detection[M].Computer Vision-ECCV 2012.Springer Berlin Heidelberg,2012:645-659.

[4] OUYANG W,WANG X.Single-pedestrian detection aided by multi-pedestrian detection[C].Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2013:3198-3205.

[5] OUYANG W,ZENG X,WANG X.Modeling mutual visibility relationship in pedestrian detection[C].IEEE Conference on Computer Vision & Pattern Recognition.IEEE,2013:3222-3229.

[6] ZHANG S,BAUCKHAGE C,CREMERS A B.Informed haar-like features improve pedestrian detection[C].IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2014:947-954.

[7] YAN J,ZHANG X,LEI Z,et al.Robust multi-resolution pedestrian detection in traffic scenes[C].2013 IEEE Conference on Computer Vision and Pattern Recognition,2013:3033-3040.

[8] TIAN Y,LUO P,WANG X,et al.Pedestrian detection aided by deep learning semantic tasks[C].Computer Vision and Pattern Recognition.IEEE,2014:5079-5087.

继续阅读>>