《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 设计应用 > 基于深度的3D视频质量评价
基于深度的3D视频质量评价
来源:微型机与应用2013年第3期
孙 延,岑 峰
(同济大学 电子与信息工程学院,上海201804)
摘要: 针对3D视频质量评价,基于人眼视觉系统HVS提出了一种新的加权SSIM评测方法。利用MVD深度视图空间和时间上的特性,提取主观权值映射,基于SSIM利用权值映射便得到了基于深度的SSIM加权算法DSSIM。实验结果表明,DSSIM比PSNR更趋近于HVS,比SSIM更充分地考虑了3D结构信息,得到更准确的3D视频质量评价。
Abstract:
Key words :

摘  要: 针对3D视频质量评价,基于人眼视觉系统HVS提出了一种新的加权SSIM评测方法。利用MVD深度视图空间和时间上的特性,提取主观权值映射,基于SSIM利用权值映射便得到了基于深度的SSIM加权算法DSSIM。实验结果表明,DSSIM比PSNR更趋近于HVS,比SSIM更充分地考虑了3D结构信息,得到更准确的3D视频质量评价。
关键词: 3D视频质量评价;深度视图;权值映射;SSIM;3D视频合成

 近几年,多媒体技术的进步使得3D技术作为下一代传媒系统而受到了广泛的关注。全球重要的传媒广播公司均对3D视频越来越重视。根据视频输入数据的不同类型,3D视频可分为Multi-View Video(MVV)[1]、Multi-View Video Plus Depth(MVD)[2-3]以及Stereoscopic View。其中,MVV包含两个或多个视图,每个视图包含一个视频序列,它不包含几何信息和深度信息。Stereoscopic View是MVV的一种,包括两个视图。MV由Single-View Video Plus Depth(VPD)合成得到[4]。视频的纹理信息(Texture Information)和深度信息(Depth Information)在接收端被渲染成虚拟的立体视图。深度视图是一张灰度图,包含每个像素点的深度信息,灰度的深浅代表物体距相机的远近。在利用深度视图得到新的虚拟视图的过程中,视频中物体的图像被转换到它们应当的位置。所形成的虚拟立体视图就像被一个水平位置平行于真实摄像机的虚拟摄像机拍摄的一样。MVD格式一直是3D视频的主要格式。
 随着3D研究的日益深入,如何评估3D视频合成以及编码传输等各个方面的评估问题也得到广泛的关注。现在,一些针对3D图像和视频质量的评估方法已经在一些参考文献中被提出。YASAKETHU S等人[5]使用平面的视频质量评价模型来评价3D视频。BENOIT A等人[6]提出了一种融合平面质量指标和深度失真信息的3D视频评价模型。YANG J等人[7]基于图像的绝对差值,采用一组参数来衡量图像的质量和视频的立体感。这些算法都是基于传统的平面视频质量评价算法(如分析图像边缘特征和差异性),都集中分析3D静态整体图像,用来评价3D图像或者视频。但是,它们要达到很好的效果有一个重要的前提假设,某个特定局部的质量非常差,以至于影响到整体的主观感知效果[8-9]。比如,用于视频质量评价的峰值信噪比PSNR(Peak Signal-to-Noise Ratio)和均方误差MSE(Mean-Square Error)都不能正确评价3D视频质量。这两种评测方法在一定条件下与HVS有较大的差异性[10]。为了趋近于HVS,设计更好的3D视频质量评价方法成为研究的一个重要目标。
 对于3D视频,在产生真实3D视觉感受和不同物体的远近层次感过程中,深度信息是一个重要因素。参考文献[11]研究了在VPD合成MVD的过程中,深度视图的压缩对合成后的MVD造成的影响。由未压缩深度视图和纹理视图合成参考MVD,由压缩深度视图和纹理视图合成测试MVD,对比参考MVD和测试MVD的PSNR,证明了深度视图对MVD质量的影响至关重要。但是文献并没有对深度视图中的信息进行提取和优化,并且评价MVD的方法也过于粗糙,没有利用深度视图中的信息,如人眼通常会更加注意近景区域以及运动区域,而深度视图与这两个区域的信息息息相关。本文的研究对象正是参考文献[11]中的参考MVD和测试MVD。依据深度视图,从中提取近景信息和运动信息,组成该视频的权值映射。在此基础上提出了新的基于深度信息的加权的SSIM算法,该方法更加符合HVS特点。
1 基于深度的SSIM加权算法
 MVD由多个视角的VPD合成,针对MVD视频质量的评价,参考文献[11]中采用PSNR的算法,但其主观趋近性较差。本文首先用算法简单、高效且具备空间结构信息等优点的SSIM取代PSNR对MVD进行质量评价,然后针对SSIM并未体现人眼感兴趣区域的特性,结合深度信息提取权值映射,对SSIM算法进行加权改进。
1.1 深度视图的压缩对MVD质量影响的评估
 VPD合成MVD结构示意如图1所示。两个单视图视频分别为PVDA和PVDB,它们均由相应的深度视频序列和纹理视频序列组成。PVDA和PVDB是由固定于同一水平位置、间距固定的两个摄像头拍摄而得到的。本文使用View Synthesis Reference Software(VSRS)3.0[12]合成MVD,将未经过压缩的深度视图和纹理视图合成参考视图MVDr,将压缩的深度视图和纹理视图合成测试视图MVDt,MVDr和MVDt使用同一来源的深度和纹理视图,在相同系统中合成而得,唯一的差别在于深度视图压缩与否。合成视图的质量是通过MVDr和MVDt之间的PSNR来评价的。

1.2 结构相似算法(SSIM)
 考虑HVS的特性,Wang Zhou等人提出的基于结构度失真的SSIM(Structural Similarity Index)评估方法被广泛应用在之后的各种模型中[13]。SSIM方法认为自然图像信号是高度结构化的。从一个图像形成的观点来看,结构性信息是平均亮度和对比度这些反映场景中物体结构的信息。这就得到了SSIM算法的核心,即分别考量两个图像中相应块的亮度、对比度和结构信息,作为评价一个图像质量的方法。定义信号x、y之间的SSIM为:

 


2 实验结果
 本文设计了一个实验,用来验证DSSIM在针对含深度信息的3D合成视频的质量评价上,相比于传统的PSNR、SSIM都有更好的效果。参考软件使用了多视角合成VSRS 3.5, 压缩使用的是JM15.0。
本文使用MPEG 3DV测试序列“ballet”(像素尺寸为1 024×768,帧数为100,帧率为15 Hz)。图4是参考的ballet序列,图5和图6均为压缩测试序列,所不同的是图5在权值图权值高的部分(近景主体的边缘毛刺较多)产生了压缩,图6在权值图权值低的部分(远景背景较模糊)产生了压缩。

 观察图4、图5和图6可以明显看出,MVDt2的视觉效果更好,即主观质量评价较高,如图5左上的圆圈处缺少了舞者头发部分,左下的圆圈处缺少了小臂部分,右边圆圈处出现了毛刺等。但是依据PSNR和SSIM值,MVDt2的质量比MVDt1要差,这正好与主观感知相反。只有DSSIM值才能跟随主观视觉效果得到MVDt2质量较高(DSSIM值较大)的正确评判。
 本文通过提取3D视频的深度和运动信息,得到了3D视频的权值映射图。3D视频中深度信息和运动信息是影响视频质量的重要因素,从中也可以提取人眼感兴趣区域的信息。结合HVS特点,继而得到了基于深度的3D视频客观质量评价方法DSSIM。实验结果表明,在传统PSNR和SSIM模型都与主观评价相悖的情况下,DSSIM依然能够得到与主观视觉相一致的结论。3D视频对深度感知要求较高,基于深度的SSIM加权算法是一种较好的3D视频质量评价算法。
参考文献
[1] TANIMOTO M. Overview of free viewpoint television[J]. Signal Processing: Image Communication, 2006,2(6):454-461.
[2] SMOLIC A, MULLER K, DIX K, et al. Intermediate view interpolation based on multiview video plus depth for advanced 3D video systems[C]. Proceedings of International Conference on Image Processing, 2008: 2448-2451.
[3] MERKLE P, SMOLIC A, MULLER K, et al. Multi-view video plus depth representation and coding[C]. Proceedings of IEEE International Conference on Image Processing, 2007(1):I-201-I-204.
[4] MERKLE P, WANG Y, MULLER K, et al. Video plus depth compression for mobile 3D services[C]. Proceedings of the 2009 IEEE EDTV Conference, 2009: 1-4.
[5] YASAKETHU S L P, HEWAGE C, FERNANDO W, et al. Quality analysis for 3D video using 2D video quality models[C]. IEEE Transactions on Consumer Electronics, 2008, 54(4): 1969-1976.
[6] BENOIT A, LECALLET P, CAMPISI P, et al. Using disparity for quality assessment of stereoscopic images[C]. ICIP 2008: the 15th IEEE International Conference on Image Processing, 2008: 389-392.
[7] YANG J, Hou Chunping, Xu Ran, et al. New metric for stereo image quality assessment based on HVS[J]. International Journal of Imaging Systems and Technology, 2010, 20(4):301-307.
[8] PINSON M H, WOLF S. A new standardized method for objectively measuring video quality[J]. IEEE Transactions on Broadcasting, 2004,50(3):312-322.
[9] MOORTHY A K, BOVIK A C. Visual importance pooling for image quality assessment[J]. IEEE Journal of Selected Topics in Signal Processing, 2009, 3(2): 193-201.
[10] WANG Z, BOVIK A C. Mean squared error: love it or leave it? A new look at signal fidelity measures[J]. Signal Processing Magazine, IEEE, 2009, 26(1):98-117.
[11] EL-YAMANY N A, UGUR K, HANNUKSELA M M, et al. Evaluation of depth compression and view synthesis distortions in multiview-video-plus-depth coding systems[C]. 3DTV-Conference: The True Vision-Capture, Transmission and Display of 3D Video(3DTV-CON), 2010: 1-4.
[12] TANIMOTO M, FUJIE T, SUZUKI K, et al. Reference softwares for depth estimation and view synthesis[DB/OL]. ISO/IEC JTC1/SC29/WG11, M15377, 2008.
[13] WANG Z, LU L, BOVIK A C. Video quality assessment based on structural distortion measurement[J]. Signal processing: Image communication, 2004, 19(2):121-132.

此内容为AET网站原创,未经授权禁止转载。