一种基于HOG与LSS融合的行人检测算法-AET-电子技术应用

一种基于HOG与LSS融合的行人检测算法

2016年微型机与应用第08期

顾志航，陈淑荣

（上海海事大学信息工程学院，上海 201511）

摘要： 针对传统HOG特征的行人检测方法中因遮挡及复杂环境存在较高漏检误检情况，建立了一种基于HOG和局部自相似（LSS）特征融合的行人检测算法。利用LSS反映图像内在几何布局和形状属性的特性，用主成分分析(PCA)将HOG和LSS两类特征在实数域降维，再将两种特征组合成新特征，结合线性SVM分类器进行行人检测。实验采用INRIA数据库和Daimler数据库作为训练集训练SVM，用730幅监控视频帧图片作测试集，将该方法与基于传统HOG特征的行人检测方法做对比，结果表明该方法平均漏检误检率降低16%，检测效果优于基于传统HOG特征的行人检测方法。

关键词： 行人检测主成分分析梯度直方图局部自相似

Abstract：

Key words :

　　顾志航，陈淑荣

　　（上海海事大学信息工程学院，上海 201511）

摘要：针对传统HOG特征的行人检测方法中因遮挡及复杂环境存在较高漏检误检情况，建立了一种基于HOG和局部自相似（LSS）特征融合的行人检测算法。利用LSS反映图像内在几何布局和形状属性的特性，用主成分分析(PCA)将HOG和LSS两类特征在实数域降维，再将两种特征组合成新特征，结合线性SVM分类器进行行人检测。实验采用INRIA数据库和Daimler数据库作为训练集训练SVM，用730幅监控视频帧图片作测试集，将该方法与基于传统HOG特征的行人检测方法做对比，结果表明该方法平均漏检误检率降低16%，检测效果优于基于传统HOG特征的行人检测方法。

　　关键词：行人检测；主成分分析；梯度直方图；局部自相似

0引言

　　随着视频监控和智能分析应用的普及，行人检测已成为一个重要的研究方向。目前行人检测算法常用特征主要有Haar特征［1］、尺度不变特征（SIFT）［2］、加速鲁棒特征（SURF）［3］、方向梯度直方图（HOG）［45］、局部二进制模式（LBP）［6］、局部自相似（LSS）［7］等，Haar特征适用于有固定结构的目标。SIFT/SURF的特征具有强烈方向及亮度性，适合检测图像几何和光学变化微弱的目标。LBP特征最初被引入人脸识别,但直接提取灰度图LBP特征会引入噪声信息，增加特征判别的难度。LSS特征则是通过捕捉颜色自相似性、边缘特征、重复模板以及复杂纹理计算两幅图像的相似性，更多用于图像匹配。本文选用HOG特征作为行人检测主要方法。HOG是在图像的局部单元格上操作，因此它对行人细微肢体动作和光照变化有很好的适应性。但HOG特征计算量大；由于梯度自身的性质，该特征对噪声敏感；行人遮挡、样本数量及类型限制，导致HOG特征在最后分类时出现漏检，若将漏检的样本加入训练样本集，又会出现大量的误检。针对这一问题，本文结合LSS特征计算图像相似性的特性，建立了一种基于融合LSS和HOG特征的行人检测算法。首先输入待检测视频帧图像，归一化处理和高斯去噪，然后分别提取图像的HOG特图1算法流程图征和LSS特征，再对HOG和LSS特征进行PCA降维并融合，最后用线性SVM进行行人检测。算法原理如图1所示。

1算法理论

　　1.1行人HOG特征提取

　　HOG特征是一种在计算机视觉和图像处理中进行物体检测的特征描述子。首先将图像分成小的连通区域cell，然后采集cell中各像素点的梯度构成方向直方图，再将直方图组合成特征描述器。流程图如图2所示。

　　图像中每一个像素点梯度为：

　　Gx(x,y)=H(x+1,y)-H(x-1,y)x,y(1)

　　Gy(x,y)=H(x,y+1)-H(x,y-1)x,y(2)

　　Gx(x,y)、Gy(x,y)、H(x,y)分别表示图像像素点(x,y)处的水平、垂直方向梯度和像素值。像素点(x,y)处的梯度幅值和方向为：

　　实验中取16×16像素为一个cell，2×2 cell为一个block，将梯度角度［0,π］分为9个区间bin，对每个cell内所有像素的梯度值在各个bin区间进行直方图统计，得到9维的特征向量，一个block就有36维特征向量，利用L2范数对整个block归一化，得到block的特征向量；收集检测窗口中所有重叠块的特征，构建最终HOG特征向量供分类使用。实验中一张64×128的图片可以生成几千维的特征向量，过高的特征维度会增加算法后期计算量。

　　1.2LSS特征提取

　　LSS特征用于捕捉本地图像间自相似性。当存在局部小规模变形时，LSS特征通过捕捉颜色、边缘、重复图样和复杂纹理的自相似性，从而匹配图像。本文利用这一特性，结合HOG特征，辅助区分行人和非行人目标，以此降低漏检误检率。LSS特征计算过程如下。

　　1.2.1计算相关面

　　假定计算中心像素p(x,y)处的LSS特征，以p点为中心构建两个环绕图像块，内外环图像块的半径为r1和r2，计算环绕块内像素点亮度差值平方和（Sum of Square Differences，SSD）,结果记为SSD(p)。再将SSD(p)归一化为相关面S(p)，公式为：

　　S（p）=exp (-SSD(p)/max(vn,va(p)))(5)

　　其中，vn为常量，是颜色或光照上的噪声；va(p)为点p与其相邻点的最大距离。

　　1.2.2提取特征值

　　S（p）计算完成后，转换为以点p为中心的极坐标表示，再根据半径和角度的量化级数将S（p）上的各像素点按坐标划入到对应的量化级，取每个量化级最大值作为最终特征矢量分量，构成LSS特征值。

　　本文实验过程如图3所示。图3（a）为一幅64×128像素的图像，取r1=7×7为中心子窗口，q为中心点，再以q为中心选取r2=21×21为一个patch；从patch左上角开始，取5×5的子窗口，上下步进7，计算所有子窗口与中心子窗口的SSD，结果如图3（b）所示；然后从图像的左上角patch开始以17为步进，得到32个patch；将SSD转化到对数极坐标系，角度和径向上划分为20份和4份，如图3（c）所示；在每个角度区域选择最大“相关值”作为特征值，形成80维LSS描述子，如图3（d）所示；最终生成4×8×80=2 560维LSS特征，高维度LSS特征向量同样会增加算法的计算量。

　　1.3PCA降维

　　图像提取的两种特征向量维度都很高，两种特征融合后，新特征维度更大，大量冗余信息会降低识别精度，减缓分类速度，故需要降维。参考文献［45］证明PCA降维分别在基于HOG特征的行人检测算法和基于LSS特征的图像匹配算法中对降低计算量效果较好。本文采用PCA对两种特征降维。用式(6)计算特征主成分：

　　y=UT(xi-x-)(6)

　　其中，y为主成分特征，x-为训练样本的特征均值，xi为第i个样本，UT为协方差矩阵公式。

　　式（7）、（8）中，N为样本数量，n为样本维数，T为矩阵转置符号。对于具体的降维维数k，通过下式主成分贡献率来确定：

　　式（9）中，λi为式（8）中∑的特征值，δ为主成分贡献率。

　　本文实验中HOG和LSS特征的降维步骤如下：

　　(1)计算训练样本集中HOG特征均值x1-和LSS特征均值x2-。

　　(2)根据式(7)计算特征值、特征向量及协方差矩阵U1、U2，其中U1的矩阵为3 780维，U2的矩阵为2 560维。

　　(3)取协方差矩阵前p个主成分，对每个HOG及LSS特征，通过式(6)进行特征降维，分别得到降维的HOG和LSS特征，向量维数k1、k2的值根据式(6)~式(9)的实验结果确定。

　　1.4特征融合

　　由于两种特征原理不同，本文采用串行特征组合方法，如式(10)所示：

　　C={(α,β),α∈A，β∈B}(10)

　　α和β代表HOG及LSS特征。本文将LSS特征作为辅助检测，与HOG特征在降维后融合，在不增加计算量的基础上能降低传统算法的漏检误检率。

　　1.5行人检测分类器

　　SVM通过核函数将样本映射到线性可分的高维空间，进行点积运算得到判别结果，鲁棒性较好。而线性核函数算法简单，计算量小，更适于实时监控视频的行人判定。本文采用基于线性核函数的SVM作为分类器。

2算法描述

　　本文算法步骤如下：

　　(1)输入监控视频，提取帧图像，转换为灰度图，并归一化和高斯去噪。

　　(2)提取预处理后图像的HOG特征及LSS特征，构成特征集α、β。

　　(3)分别计算两种特征的特征值、特征向量以及协方差矩阵U，结合式(6)~式(9)通过实验计算不同维度特征的主成分贡献率，确定向量维数k1、k2。

　　(4)根据k1、k2对HOG及LSS特征进行PCA降维并级联成特征C。

　　（5）将特征C输入线性SVM，进行行人目标的判别检测。

3实验结果及分析

　　为验证算法有效性，在MATLAB 2014a环境下进行实验，计算机配置为2.3 GHz CPU和4 GB内存，数据库为INRIA数据库和Daimler数据库。实验将本文算法与传统HOG算法和LSS算法进行比较，从两个数据库中选择2 300个包含行人正面和其他姿势以及5 000张无行人的图片作正样本集和负样本集，以训练线性SVM。最后输入一段监控视频，提取730幅图像检测行人，得出实验数据。

　　3.1特征PCA维数选取实验

　　分别提取HOGPCA特征和LSSPCA特征级联得到特征C，通过多次实验确定两种特征的PCA维数p，并对比了它们结合线性SVM后的分类判别能力。PCA维数对识别率影响的实验结果如图4所示。表1为降维后的组合特征与不降维的组合特征在训练时间、检测时间和识别率方面的比较。

　　实验结果表明：图4中HOG特征在PCA维数为300时达到峰值，而LSS特征则在700维时达到峰值；表1中降维后的两种特征在训练时间和检测时间上明显缩短，识别率得到有效提高。实验结果与式(9)吻合，证明了两种特征的PCA维度可以根据式(9)进行确定。本文HOG特征维度选择300维，LSS特征维度选择700维。

　　3.23种算法实验对比

　　为验证本文算法的性能，将本文算法与基于传统HOG特征、LSS特征的行人检测算法进行对比。图5（a）在单窗口检测情况下比较3种方法的漏检率（Miss Rate）及误检率（False Postive），3条曲线分别代表3种方法。　

　　实验结果表明，相同FPPW的情况下，本文方法丢失率分别比传统HOG和LSS方法降低了53%和26%；其中HOG的结果最不理想，平均漏检率达到了11%。图5（b）在整个图片检测的情况下比较基于传统HOG特征的算法与本文算法的漏检率（Miss Rate）及误检率（False Postive），本文算法准确率达到93.51%，而传统HOG算法准确率只有89%。相同FPPI情况下，本文算法丢失率则比传统HOG方法降低了15%。图6为一段视频处理后，两种算法的行人检测图片。

　　图6（a）、（b）和（c）、（d）分别为不遮挡情况下的视频帧。其中（a）、（c）基于传统HOG特征算法，（b）、（d）基于本文算法的行人检测结果；图（a）、（c）中箭头为传统算法漏检的行人，图（b）、（d）中用本文算法准确检出了漏检的行人。

4结论

　　针对传统HOG特征在行人检测算法中，因遮挡及复杂环境导致的较高误检率，建立了一种基于传统HOG和LSS特征融合的视频行人检测算法。通过选取合适的PCA降维维度，有效减小了计算量，降低了行人检测过程中的误检及漏检率。实验表明本算法识别检测精度较高，为视频监控系统的实时行人检测方法提供了理论依据。

参考文献

［1］ VIOLA P, JONES M J, SNOW D. Detecting pedestrians using patterns of motion and appearance［C］. Proceedings of the Ninth IEEE Conference on Computer Vision, 2003： 734741.［2］ LOWE D G. Distinctive image features from scaleinvariant keypoints［J］. Intermational Journal of Computer Vision,2004,60(2):91110.

［3］ BAY H, ESS A, TUYTELAARS T, et al. Speeded up robust features (SURF)［J］ Computer Vision and Image Understanding,2008,110(3):346359.

［4］田仙仙，鲍泓，徐成一种改进HOG特征的行人检测算法［J］.计算机科学，2014，41(9):320324.

［5］郝溪，陈淑荣，尹道素.融合HOG 与颜色特征的粒子滤波行人跟踪算法［J］.微型机与应用,2014,33(6):4043.

［6］陈锐，王敏，陈肖.基于PCA降维的HOG与LBP融合的行人检测［J］.信息技术,2015(2):101105.

［7］刘景能.图像局部不变特征提取技术及其应用研究［D］.上海：上海交通大学，2012.

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容