视频信号处理技术及应用-AET-电子技术应用

视频信号处理技术及应用

日期： 2008-12-05

作者：朱珍民沈燕飞

关键词： 信号处理视频标准三维视频视频数据编解码

视觉是人类最重要的感觉，也是人类获取信息的主要来源。据统计，人类从外界获取的信息中，75%来自视觉。与其他的信息形式相比，视频信息具有直观、具体、生动等诸多显著优点，并且所包含的信息量很大。“百闻不如一见”、“一图值千言”等成语都说明了这一特点。因此，各种视频信号处理" title="信号处理">信号处理技术的研究和应用一直吸引着国内外广大科技人员的关注。20世纪90年代，计算机技术、信息技术、网络技术以及其他各种相关技术的发展，进入了信息的数字化时代。在这阶段，视频信号处理技术得到了快速发展，特别是视频、音频和多媒体通信等方面的国际标准不断推出，有力促进了视频信号处理技术逐步进入实用化阶段，如视频会议、可视电话、数字电视等应用的出现。以视频信息处理为主的多媒体技术已经成为21世纪最具有时代特征和最富有活力的研究和应用领域之一。

视频信号处理主要包括视频信号的采集、处理、编码和传输，近年来的研究热点主要集中在视频信号的高效压缩编码、智能视频处理、三维立体视频信号的高效传输与重建等。本文首先介绍视频信号处理的相关概念和视频信号处理技术面临的挑战等问题；然后介绍多媒体应用中视频信号处理的发展情况和各种视频信号处理技术的实现思路，并且进行对比分析；最后介绍嵌入式多媒体应用技术中视频信号处理的技术方案和应用案例。

1. 视频信号处理的相关概念

视频是一组在时间轴上有序排列的图像，是二维图像在一维时间轴上构成的图像序列，又称为动态图像。它不仅包含静止图像所包含的内容，还包含场景中目标运动信息和客观世界随时间变化的信息。早期的视频主要是模拟的视频信号，随着各种电子技术的发展以及全球数字化进程的推进，数字化技术以其以存储、易传输、无误码积累等特点大大促进了图像和视频的发展和应用。

模拟视频信号由视频模拟数据和视频同步数据构成，用于监视器正确地显示图像，图像的细节取决于应用的视频标准" title="视频标准">视频标准或制式。模拟视频主要有三种制式：NTSC(National Television Standards Committee)、PAL(Phase Alternation Line)和SECAM(Sequential Colour Avec Memoire )等，这三种制式皆属兼容制，其共同点是都采

用能与黑白电视兼容的亮度信号和两个色差信号作为传输信号，其不同点是两个色差信号对副载波采用不同的调制方式。三种视频制式的主要参数如表1所示。

表1 三种模拟视频制式的主要参数

模拟视频制式	NTSC-M	PAL-D	SECAM
频率（Hz）	30	25	25
行/帧	525	625	625
亮度带宽（MHz）	4.2	6.0	6.0
彩色副载波（MHz）	3.58	4.43	4.25
色度带宽（MHz）	1.3(I)，0.6(Q)	1.3(U)，1.3(V）	>1.0(U)，>1.0(V)
声音载波（MHz）	4.5	6.5	6.5

为了在不同的应用和产品之间交换数字视频，就需要数字视频格式标准。为了便于国际节目交换以及PAL制系统与NTSC制系统之间兼容，这就导致了通用数字视频标准的出现。通用数字视频标准主要包括国际无线电通信咨询委员会(CCIR)所制定的数字分量视频标准CCIR-601及CCIR-656。CCIR-601定义了对应于525行和625行电视系统的电视演播的数字视频标准，建立在带有一个亮度(Y)和两个色差(Cr和Cb)信号的分量视频的基础上，在525行和625行系统中，采样频率均选择水平扫描频率的整数倍。CCIR-656是在CCIR-601的基础上发展的一种新数字视频标准，使用27MH的时钟对视频信号进行采样，其中亮度(Y)信号采样频率为13.5MHz，色差(U和V)采样频率为6.75MHz，量化比特为8或10bit。由于CCIR-656视频数据" title="视频数据">视频数据流采用8根信号线(传统方式需要19根信号线)就可以传输所有的图像信息和行同步、场同步、偶同步信息，因此采用CCIR-656方式进行接口设计时，便于实时数字图像处理硬件平台以功能单元为单位进行模块化设计。

2. 嵌入式视频信号处理技术面临的挑战

2.1 视频信号传输的带宽需求

视频信号数字化后的数据量非常庞大，如一路PAL制的数字电视的数据速率高达216Mbit/s，这无疑给存储器的存储容量、通信线路的信道传输率以及计算机的计算速度都带来了极大的压力。同时，这也是制约多媒体技术发展的一个瓶颈问题。解决这一问题，单纯通过扩大存储器容量、增加通信线路的传输率是不现实的，因此需要对视频数据进行压缩编码，近年来，国际标准化组织ISO、国际电工委员会IEC、国际电信联盟ITU-T以及中国音视频编码标准化工作组相继制定了一系列数字视频图像编码的国际标准。

2.2 视频信号处理对计算能力的需求

在嵌入式应用中，视频信号处理主要包括视频编码应用等，新一代视频编码标准H.264以实现视频的高压缩比、高图像质量、良好的网络适应性等优点，被广大视频应用产业接纳。相对于传统视频标准MPEG-2、MPEG-4而言，其在码率压缩效率上具有无可比拟的优势，在相同画面质量的情况下，H.264需要的带宽只有MPEG-4的1/2、MPEG-2的1/8。但是，H.264 算法非常复杂，其编解码" title="编解码">编解码的实时性难以保证，通常只能实现对中低分辩率视频的实时编码。

2.3 视频信号处理对能量的需求

作为便携式系统的移动视频终端，通常使用电池进行供电，其供能系统的容量受到很大的限制。因为视频业务的处理算法相对复杂，并且用户在享受业务时需要长时间开启终端屏幕，所以必然会消耗大量的能量。这一矛盾大大制约了移动视频通信业务的发展，因而需要设计低能耗的视频信号处理算法，减少视频终端的能量消耗。

2.4 视频数据的传输质量的要求

随着无线网络的飞速发展，无线视频应用越来越普及。但是由于无线信道受多径影响，具有误码率高，时变性强，而实时视频在无线网络传输中容易受误码、抖动等影响，直接导致终端数据流信息无法完整回放，因此如何保证视频传输服务质量显得异常重要。

3. 多媒体应用中视频信号处理技术的发展情况

3.1 视频压缩编码技术

视频压缩编码技术作为视频信号处理的核心技术之一，理论和应用领域都致力于该技术的研究，并且制定了一系列国际标准。目前影响最大并被广泛应用的是ISO的MPEG系列、ITU-T的H.26x系列和中国自主制定的AVS系列标准（参见图1）。

H.261是首个获得广泛应用的视频编码标准，它是为在ISDN上开展可视电话、视频会议而制定的，速率为64kbit/s的整数倍（也称p×64标准）。MPEG-1在H.261编码算法的基础上改进，主要增加了B帧（双向预测帧）和GOP（图组），这些改进取得了更高的压缩比，MPEG-1标准是VCD工业标准的核心。MPEG-2标准扩展了MPEG-1标准，能够支持高分辨率图象，目标码率是在3~15Mb/s传输速率条件下提供广播级的图像。MPEG-2是工业标准DVD的核心标准，是MPEG-1的一个超集。H.263是针对甚低码率（低于64kbps）视频会议和可视电话的窄带信道视频编码建议。MPEG-4标准是针对数字电视、交互式绘图应用、交互式多媒体等整合及压缩技术的需求而制定的国际标准，MPEG-4既能够支持码率低于64kbit/s的视频应用，也能够支持广播级的视频应用。H.264/AVC标准是目前由ITU-T的视频编码专家组及ISO/IEC的活动图像专家组共同大力发展研究的、适应于低码率传输的新一代压缩视频标准。与原先的视频编码标准相比，H.264/AVC具有更高的编码效率，在相同的重建图象质量下，能够比H.263节约50%左右的码率。

图1 视频编码标准系列

AVS视频编码标准是由中国“数字音视频编解码技术标准工作组”自主制定的，相比于第一代标准MPEG-2，编码效率提高2~3倍，并且实现方案简洁，AVS视频标准可以广泛的应用于IPTV、数字电视广播等。AVS与MPEG-4/H.264采用的技术方案比较如下表2。

表2 AVS与MPEG-4标准的对比

技术模块	AVS	MPEG4 AVC/H.264	复杂性分析
帧内预测	基于8*8块，5种亮度预测模块，4种色度预测模块	基于4*4块，9种亮度预测模块，4种色度预测模块	降低约50%
多参考帧预测	最多2帧	最多16帧，缓冲区管理复杂	存储节省50%以上
变块大小运动补偿	1616、168、816、88块运动搜索	1616、168、816、88、84、48、4*4块运动搜索	节省30%-40%
B帧宏块堆成模式	只搜索前向运动矢量	双向搜索	最大降低50%
1/4像素运动补偿	1/2像素位置采用4拍滤波，1/4像素位置4拍滤波、线性插值	1/2像素位置采用6拍滤波，1/4像素位置线性插值	对存储器的访问量降低1/3
变换与量化	解码端归一化在编码端完成	编解码端都进行归一化	降低解码复杂性
熵编码	上下文自适应2D-VLC和Exp-Golomb码，降低计算及存储复杂性	CAVLC：与周围块相关性高，实现较复杂；CABAC：硬件实现特别复杂	相比CABAC降低30%以上
环路滤波	基于8*8块边缘进行，简单的滤波强度分类，滤波较少的像素	基于4*4块边缘进行，滤波强度分类繁多，滤波边缘多	降低50%以上
Interlace编码	PAFF帧级帧场自适应	MBAFF宏块级帧场自适应	降低30%以上
容错编码	简单的条带组织机制，满足广播中的错误隐藏和恢复需要	数据分割，复杂的FMO/ASO等宏块，条带组织机制强制Intra块刷新编码、约束性帧内预测	大大降低

3.2 交互式三维视频

交互式三维视频" title="三维视频">三维视频是近年来兴起的一种新型媒体，在传统的二维视频的基础上，它增加了视觉的现实感和逼真感，用户在欣赏节目的同时，能够自由的选择视点与视角，交互性是这种媒体的重要特征。根据不用的应用场景，交互式三维视频主要分为：交互式全方位视频、交互式立体视频、交互式多视角视频等几种类型。

（1）交互式全方位视频

交互式全方位视频（interactive omnidirectional video）也被称为沉浸式视频（immersive video），观察者视点不变，改变观察方向能够观察到周围的全部场景，普通的二维视频只反应了全方位视频的某个局部，难以使人产生身临其境的沉浸感，利用全方位视频可以建立起供用户观察的虚拟环境，用户通过在其中的漫游，能够交互地从不同观察点和方向了解环境。全方位视频摄像机的示意图如图2所示，由多个摄像机对同一视点周围的场景进行采集处理，任何一个视角的二维场景都可以由这些采集的图像绘制出来。全方位视频可以应用于广播、存储和交互式的在线应用等。

图2 全方位视频摄像机示意图图3 立体视频摄像机示意图图4 多视角视频摄像机示意图

（2）交互式立体视频

交互式立体视频利用人眼的双目视差原理，双目各自独立地接收来自同一场景、特定摄像点的左右图像，从而获得具有深度感的立体图像。立体视频由于能获得景物的深度信息而具有强烈的真实感和逼真度。立体视频的采集设备如图3所示，摄像头并行排列在一条直线上，模拟在水平位置上分开的人眼，为了能够使观察者体验到视角的变化，有时需要多个摄像机同时采集多个不同位置的图像。

（3）交互式多视角视频

交互式多视角视频也被称为任意视角视频（free viewpoint video），用户可以从不同的视点以任意的视角进行观察，中间视角的视频图像可以根据左右两个视角的原始视频图像来插值生成，它是交互式视频更一般的定义，上述的交互式全方位视频和交互式立体视频都是交互式多视角视频的一个特例。这种视频数据的采集设备如图4所示，除了采集视频信号之外，还可能需要摄像机的校正参数（包括一些内置参数和外置参数）、场景的几何信息等，当然这些参数和几何信息也可以用合适的算法从采集的图像中估计出来。

随着交互式三维视频采集和绘制技术的发展，编码技术也就成为推广交互式三维视频应用的一个关键因素，与普通的二维视频相比，三维视频要处理的数据量非常大，所以必须充分利用空间、时间和视角之间的信息冗余，采用运动补偿预测、视差补偿预测技术，对三维视频进行有效的存储和传输。

3.3 智能视频技术

智能视频技术是计算机视觉和模式识别技术在视频中的应用，它对视频图像中的目标进行自动的检测、跟踪和分析，从而过滤掉用户不关心的信息，通过分析理解视频画面中的内容，提供有用的关键信息。其中运动目标检测、运动目标分类和运动目标跟踪是智能视频处理中的低级和中级处理部分，而行为理解和描述则属于高级处理部分。

（1）运动目标检测

运动目标检测是从视频序列中将变化区域从背景图像中提取出来。运动区域的有效分割对于目标分类、跟踪和行为理解等后期处理是非常重要的，因为以后的处理过程仅仅考虑图像中对应于运动区域的像素。然而，由于背景动态变化，如天气、光照、影子及混乱干扰等的影响，使得运动检测成为一项相当困难的工作。目前几种常用的方法有：背景减除、时间差分、光流、扩展的EM算法、能量运动检测、基于数学形态学的场景变化检测等。

（2）运动目标分类

目标分类是识别运动目标所属的类别，不同的运动区域可能对应于不同的运动目标，比如交通道路上监控摄像机所捕捉的视频序列中可能包含行人、车辆及其他诸如飞鸟、流云、摇动的树枝等运动物体，为了便于进一步对行人进行跟踪和行为分析，运动目标的正确分类是完全必要的。目前的分类方法主要有：基于形状信息的分类、基于运动特征的分类以及时间共生矩阵进行分层分类的方法等。

（3）运动目标跟踪

对目标进行分类和分割之后，在连续视频帧中将相同的目标对应起来，实现目标的连续跟踪。人体的跟踪有两层含义，一是在二维图像坐标系下的跟踪，二是在三维空间坐标系下的跟踪。前者的实质是指在二维图像中，建立运动区域和运动人体(或人体的某部分)的对应关系，并在一个连续的视频序列中维持这个对应关系。从运动检测得到的一般是人的投影，要进行跟踪就首先要给需要跟踪的对象建立一个模型。对象模型可以是整个人体，这时候形状、颜色、位置、速度、步态等等都是可以利用的信息；也可以是人体的一部分如上臂、头部或手掌等，这时需要对这些部分单独进行建模。之后，将运动检测到的投影匹配到这个模型上去。一旦匹配工作完成，那么就得到了最终有用的人体的信息了。常用的数学工具有卡尔曼滤波(Kalman Filtering)、Condensation算法及动态贝叶斯网络等。

（4）行为理解与描述

行为理解与描述是近年来被广泛关注的研究热点。它是指对运动模式进行分析和识别、并用自然语言等加以描述。行为理解可以简单的被认为是时变数据的分类问题，即将测试序列与预先标定的代表典型行为的参考序列进行匹配。行为理解的关键问题是如何从样本学习中获取行为序列，并且学习和匹配行为序列能够处理在相似的运动模式类别中空间和时间尺度上轻微的特征变化。对于人的行为识别而言，目前主要有模板匹配方法与状态空间方法。采用模板匹配技术的行为识别方法首先将图像序列转换为一组静态形状模式，然后在识别过程中与预先存储的行为标本相比较。基于状态空间模型方法是定义每个静态姿势作为一个状态，这些状态之间通过某种概率联系起来。任何运动序列可以看作为这些静态姿势的不同状态之间的一次遍历过程，在这些遍历期间计算联合概率，其最大值被选择作为分类行为的标准。目前，状态空间模型已经被广泛地应用于时间序列的预测、估计和检测。

总之，智能化是视频应用发展的必然趋势，国际上很多科研机构对技术研发和应用部署已有多年，特别是“911”事件之后，出于反恐、国家公共安全和社会安定等多方面的需要，智能化视频监控和预警技术已经成为国际上最被关注的前沿研究领域。

4. 应用案例

（1）智能视频监控

视频监控系统是安全防范系统的组成部分，它是一种防范能力较强的综合系统。视频监控以其直观、方便、信息内容丰富而广泛应用于许多场合。近年来，随着计算机、网络以及图像处理、传输技术的飞速发展，视频监控制技术也有长足的发展。同时，随着智能技术特别是模式识别技术在理论和实践上的逐渐成熟，将机器智能概念引入常规视频监控系统成为该领域的重要突破点。

我们设计的智能视频监控系统采用ARM微处理器为主控芯片，同时以TI TMS320C642为视频处理的协处理器，充分发挥了ARM的控制优势和DSP的信号处理优势。原理图如下（5）所示。DM642主要负责视频数据的采集、编码和智能分析，通过HPI和ARM进行通讯，ARM可以通过网络与监控中心进行相连，同时也可以进行对视频数据存盘处理。

图5 智能视频监控系统

（2）嵌入式WEB视频服务器

嵌入式WEB视频服务器利用MPEG-4专用芯片采集压缩视频信号，经过服务器网络接口传送到监控中心，服务器同时可以接收监控中心发送的控制信号。视频服务器硬件结构如图（6）所示。服务器上电后，系统被加载到与ARM相连的SDRAM中运行，ARM通过串口控制云台，转动摄像机获取视频信号，经过SAA7114采样芯片实现A/D转换，转换后的数字视频数据传给视频压缩芯片，完成视频压缩，压缩后的数据缓存在一个FIFO中，当FIFO达到一定的数据量时，触发ARM中断，由处理器的中断服务子程序获取该数据并存放于系统缓冲区中，等待发送程序读取。当服务器监听到监控端的视频请求时，服务器将视频数据打包并以流媒体的形式传输到监控端上去。

图6 嵌入式WEB视频服务器

（3）基于SIP协议的可视电话终端

可视电话终端由于使用方便、安装方便等优点，是目前国内外的研究热点。实现方案也有很多种，如采用DSP、ARM或者专用的会议电视芯片等。我们采用的方案是：使用TI公司的通用DSO芯片TMS320DM642，利用纯软件方式实现音视频编解码，用三星公司的ARM9芯片S3C2410实现各种接口，嵌入式操作系统和传输控制协议等。这样即不存在芯片成本过高的问题，又能保证很高的性能，可以通过简单的程序下载实现软件升级或者增加新的编解码标准。系统的硬件结构框架如图7所示。其中，TMS320DM643完成音频压缩编解码G.711/G.729/G.723.1和视频压缩编解码H.264，S3C2410完成SIP协议和嵌入式OS及各种接口。

图7基于SIP协议的可视电话终端

参考文献

[1] Yao Wang, Jorn Ostermann, Ya-Qin Zhang, Video Processing and Communications[M], New Jersey: Pearson Education, 2003

[2] Sadka A.H, Compressed Video Communication[M], Hoboken:Wiley,2002

[3] 沈兰荪，卓力著，小波编码与网络视频传输，北京，科学出版社[M]，2005.4

[4] 毕厚杰主编，新一代视频压缩编码标准－H.264/AVC[M]，北京，人民邮电出版社，2005.5

[5] 智能视觉监控技术的研究，http://www.zhi-leng.com.cn/Html/2007-04-08/7121.shtml.

[6] 王亮，人运动的视觉分析综述，计算机学报，2002, 3, 3-16

[7] Millan Sonka, Vaclav Hlavac, Roger Boyle著，艾海舟，武勃等译，图象处理分析与机器视觉，第二版，北京：人民邮电出版社。

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

视频信号处理技术及应用

日期： 2008-12-05

作者：朱珍民 沈燕飞

相关内容

作者：朱珍民沈燕飞