图像识别技术在智慧教室录播系统中的应用研究-AET-电子技术应用

图像识别技术在智慧教室录播系统中的应用研究

2020年电子技术应用第3期

邓小海，姜周曙

杭州电子科技大学自动化学院，浙江杭州310000

摘要： 录播系统的使用使得教学资源能够突破时间与空间的限制，让优秀的教学资源更加普及大众。但传统的录播操作模式需要人为地操作多个摄像源，这样不仅操作复杂，而且效果一般。将图像识别技术应用于录播系统，既能够还原本真的课堂，又能充分发挥技术对教学的辅助作用，为教学活动提供更加高效的录播服务。

关键词： 智慧教室图像处理录播系统视觉跟踪

中图分类号： TN92
文献标识码： A
DOI：10.16157/j.issn.0258-7998.190645
中文引用格式： 邓小海，姜周曙. 图像识别技术在智慧教室录播系统中的应用研究[J].电子技术应用，2020，46(3)：92-96.
英文引用格式： Deng Xiaohai，Jiang Zhoushu. Application of image recognition technology in recording and broadcasting system of intelligent classroom[J]. Application of Electronic Technique，2020，46(3)：92-96.

Application of image recognition technology in recording and broadcasting system of intelligent classroom

Deng Xiaohai，Jiang Zhoushu

College of Automation，Hangzhou Dianzi University，Hangzhou 310000,China

Abstract： The use of automatic recording and broadcasting system enables teaching resources to break through the limitations of time and space, and make excellent teaching resources more popular with the public. But the traditional operation mode of recording and broadcasting requires artificial operation of multiple camera sources, which is not only complicated but also general in effect. Applying image recognition technology to the recording and broadcasting system can not only restore the authentic classroom, but also give full play to the auxiliary role of technology in teaching and provide more efficient recording and broadcasting services for teaching activities.

Key words : smart classroom；image processing；active recorder；visual tracking

0 引言

在落实“互联网+教育”战略、深化教育教学改革的背景下,建设智慧教室是学校创新教学环境、提升人才培养质量的必然选择^[1]。随着微课、MOOC等移动学习方式的兴起，将现代教育技术融入教学生活并促进教学改革已成为教育行业研究的热点。

传统的录制方式难以满足人们对优质教学资源的需求，智慧教室录播系统能够智能高效地完成整个教学过程的录制并根据不同的需求生成对应的教学文件^[2]。基于图像处理的录播系统使得智慧教室成为了优秀的教学成果展示平台，也进一步促进了移动学习模式的发展。

1 录播系统概述

1.1 自动录播系统概述

自动录播系统主要由跟踪定位系统、音视频信号采集与处理系统、录播主控系统3个子系统构成^[3]。录播系统能完整地记录教学过程，并且根据授课时间自动生成教学录像，多路原始文件的保留模式也使得编辑更加方便。录播系统不仅能以直播的形式提供教学，还能在网上重复播放。

1.2 录播系统中的跟踪技术

跟踪技术作为录播系统的核心技术之一，其主要功能就是在课堂中对老师和学生进行跟踪。录播的画面质量直接影响受众的学习体验，而图像跟踪的准确性与实时性是影响画面质量的重要因素。现今的跟踪技术主要有4种：

(1)红外线感应跟踪

此技术通过在师生身上放置的红外信号源，并根据接收到的红外信号进行目标跟踪定位以及相应的摄像机拍摄方位调整。这种需要辅助设备的跟踪技术并不智能，收发信号的装置繁琐，并且无法精细地了解节点信号变化，这都局限了其适用范围。

(2)超声波定位技术

超声波定位与红外感应技术在原理上有异曲同工之处，差别在于所采用的信号源是超声波而不是红外，安装的位置也从人身上移动到了黑板桌椅上。虽然此技术操作简单、技术成熟，但是无法确定被拍摄对象的高度，而且拍摄的精度也无法得到保障。

(3)空间网格定位技术

空间网格划分是将一个教室三维空间划分为包含多个矩形网格的三维空间，通过计算师生的三维坐标从而实现追踪。这是一项较为先进的技术，能够精确地捕捉师生互动的细节。由于高额的安装成本以及其对安装性能的高要求，这项技术的使用并不广泛。

(4)图像识别技术

前3种跟踪定位技术都是基于辅助设备，不利于系统的集成，也无法通过控制硬件设备来降低系统成本。图像定位技术能够根据师生在画面中的差异自动识别并进行动态跟踪。此技术无需配备专门的信号装置，多素材的输入也使得计算与优化更加精准，是众多跟踪技术中最为有效的方式之一^[4]。

2 智慧教室录播系统整体框架

2.1 智慧教室系统模型

基于图像识别技术的智慧教室系统主要由物理空间、交互空间、资源空间以及数据一体化组成，系统模型如图1所示。

2.2 录播系统模型

录播系统所产生的录播资源是智慧教室系统资源空间建设的主要来源之一，系统框架如图2所示。

2.3 系统各模块说明

(1)图像跟踪定位模块

图像跟踪模块由4个子模块构成，它们相互合作，共同完成教室内师生的检测与跟踪。此模块根据图像的差异匹配相应的控制策略驱动系统内的摄像机进行智能跟踪定位并对师生运动轨迹进行识别分析，以此来实现对授课场景的特写、镜头切换等相关录制。同时在不同的场景下能实现多目标的追踪及镜头切换。

(2)音源抓取与后期处理模块

音质的好坏往往决定了整体的录播质量。如果对教室噪声、背景音处理不当，将会使得有效音源的清晰度降低。录播系统中的音频数字信号处理能有效地处理噪声问题并且达到有效音优化扩音的效果。教室的多个拾音器采集音频信号传到主控系统进行声音的去分化处理，进而提高录制视频的音质。

(3)录播主控模块

录播系统最核心的模块就是录播主控模块，其余模块皆为其服务。录播主机集数据采集、录播平台软件、数据处理于一体，因而系统集成度高，并且能够实现系统的小型化，便于操作。录播主控模块还能实现视频影音的智能导播、智能直播、摄像机的智能控制等功能。录播框架图如图3所示。

3 控制策略

3.1 画面切换策略

视频录像的时候根据画面要呈现的效果需要进行画面的切换以及人物的特写，这也就意味着控制中心要清晰地知道画面切换的控制策略，并根据相应的输入对多个视频输入源进行数据切换^[5]。根据教学过程的特征以及可能出现的场景，给出了如图4所示的画面切换控制策略。

3.2 目标跟踪策略

录播系统所表现出的智能化就是依靠它的目标跟踪策略，主要通过图像对三维空间建模并计算师生的三维空间坐标，从而实现定位及跟踪。由于师生在教室中的活动空间有较大的差异，因而根据师生的运动特性分别制定跟踪策略。

(1)学生跟踪策略

在一般的教学活动过程中，学生大多只会出现起立回答问题这一单一事件，他们在三维空间中大体只会呈现纵向位移而不会有横向位移，因此只需在视频相邻的帧画面中判断学生座位图像区域的图像轮廓是否发生了明显变化。

(2)老师跟踪策略

在教学过程中，大多数时间老师占据的是主导位置，因而在授课过程中老师的移动更加随意，但大多数时候总是围绕在讲台周围。在简化模型的情况下，检测老师在讲台水平空间的位置信息和轮廓高度信息，根据这些信息调整摄像头实现定位跟踪。

4 基于图像识别的运动目标定位跟踪算法

4.1 算法概述

基于图像识别的运动目标定位跟踪算法能在课堂人数众多且背景复杂的条件下对视频流数据中的目标进行精确的识别与跟踪。该算法将获取的视频流帧序列进行精细划分并在帧序列的处理中引入了背景帧差目标检测算法以及特征识别目标跟踪算法^[6]。算法整体流程图如图5所示。

4.2 运动目标自动检测算法

运动目标检测算法基于图像分割技术，通过剔除图像帧序列的固定背景检测出运动的物体。然而检测的准确性受到光线变化、摄像机抖动、背景改变等因素的影响，这也直接影响了对后续目标的跟踪和行为分析的准确性^[7]。

(1)算法比对

目标检测算法根据背景的差异划分成为两个类别，即静态背景和动态背景。由于智慧教室录播系统中所使用的摄像机在整个录播过程中相对固定，因此根据这一特性在教室目标检测算法中采用静态背景。基于静态背景的目标检测算法主要有3种，其对比如表1所示。

(2)改进背景帧差目标检测算法

智慧教室录播系统中有多个视频流数据采集点，也为同一目标提供不同的背景差比对，能进一步提高检测的精度。背景差分法的核心就是利用视频帧图像与预设背景的差异分离出运动目标。

建立一个符合要求的背景模型能在一定程度上减小光线、抖动等因素带来的干扰。由于智慧教室背景的特性，因此采用高斯背景建模。高斯背景建模是基于混合高斯模型来对样品进行建模，根据图像理论，连续视频帧序列的每个像素点在基础噪声的影响下，像素点的灰度值变化都呈现出高斯分布，当特定帧之间像素差小于阈值时^[8]，则认为像素无明显变化即为背景；否则为目标运动区域，系统模型参数也应随着目标运动进行更新，参数更新如式(1)和式(2)所示。

式中，μ和σ分别表示均值和方差，K为特定帧，α为比例系数，(x，y)为特定帧中的位置点。

比例系数α的更新将使算法能在连续的视频帧图像中及时刷新背景，从而在视频帧序列中实现目标的实时检测。智慧教室多个超清摄像头采集的视频数据也为算法提供了足够全面清晰的背景对比数据。然而差分法对目标速度变化不敏感且背景实时更新困难，导致其在动态目标追踪的过程中实时性不高。

帧差法的核心就是比对不同图像帧之间的差异来进行目标运动检测并通过当前帧来进行背景帧的更新。假设当前帧与前一帧在同一时间节点t，同一位置点(x，y)处的灰度值分别为K(x，y，t)和K(x，y，t-1)，通过差值运算可得式(3)：

帧差法的重心是倾向于相邻帧的差别比较，师生在区域范围内运动时相邻帧之间差异将更明显，因此帧差法对于运动目标的感知更为明显。经处理过的课堂录制视频其帧速较快，利用帧差法进行目标跟踪能极大程度地降低光线对检测的影响。

帧差法虽然能够更加稳定地识别运动区域，但是其对相邻帧比对的注重使得样本量不足，分割出的运动区域易产生空洞。将帧差法和背景差分法联合使用，既解决了实时性不强和区域空洞的问题，也保证了检测的精度。由于目标只占整个图形区域的一部分，对图像分割时需要判断目标，因此只筛选有用背景帧信息进行比对，整个方法流程如图6所示。

4.3 运动目标跟踪算法

目标跟踪算法的核心理念就是要保证检测出来的目标在后续的跟踪过程中不丢失。因此运动目标检测更加注重标记的识别分析，不再需要高精度分析定位来区分目标。

4.3.1 算法比对

运动目标的跟踪是通过连续图像帧快速找到预先标记好的目标，其核心不是差别分析，而是采用高效且具有辨识度的标记方法使得在后续的追踪中标记能够清晰可见。目前的动态跟踪算法大致分为4类，算法对比如表2所示。

4.3.2 HOG+朴素贝叶斯目标跟踪算法

智慧教室拥有多个角度的视频数据输入源，这也使得特征点的选择更加精细。HOG+朴素贝叶斯目标跟踪算法最重要的步骤就是对视频帧数据中被跟踪目标的特征提取以及匹配。该方法框图如图7所示。

4.3.3 特征提取

特征提取需要提取被跟踪目标的特征点，该特征点能在整个视频帧图像中保持稳定不变。特征提取是目标跟踪中最重要的一步，需要抓住本质的特征点才能有效地提高特征辨识度。特征往往不能局限于一种，多元特征的提取才能更好地提高算法精确度。

在提取特征点时，为了获得最大的特征信息量，采取方向梯度直方图(HOG)。HOG特征主要由被跟踪目标局部区域梯度方向的直方图组成，将图像局部的梯度统计特征拼接起来作为总特征，并通过边缘密度分布和目标表象进行跟踪定位。将HOG特征识别算法作为样本输入，通过倍增权值进行更新筛选，并设计分类器采集图像的HOG特征^[9]。

式中，g_i表示由特征值构成的分类器，d表示Bhattacharya 距离，θ_j表示阈值。如图7所示，HOG特征向量作为算法的输入，经不断训练产生一系列弱分类器，并将它们级联组成性能更好的目标跟踪分类器。

4.3.4 特征匹配

特征匹配是以特征点为基础，通过相应帧图像特征点比对，从而达到特征点之间的最佳匹配并在此基础上完成对运动目标的跟踪。为了提高算法的性能进而达到最佳匹配，采用基于朴素贝叶斯分类器的特征匹配来输出目标位置并不断更新分类器参数。

5 应用与研究

5.1 运动目标检测模拟实验

本文采用的目标检测算法充分发挥了帧差法与背景差分法这两种算法的优势。为了验证它在目标检测上的实际效果，通过3个算法的性能比对来分析其性能上的差异。

采用智慧教室录制的一段10 min的超清教学视频。高分辨率的图像能确保更加精细的比对，从而避免图像像素对实验的影响。视频中包含老师讲课画面、学生起立回答问题画面以及板书特写画面等。将此视频作为样本输入，通过算法判断运动目标出现的总帧数以及运动目标的大小。通过测定运动目标出现总帧数与预先测定的准确帧数比对，得到目标检测算法的准确性，其结果如表3所示。

通过表3可以看出，帧差法在检测速度上的优越性比较大但精度较低，而背景差分法虽然检测速度较慢但是精度高。背景帧差法结合了两者的优势，在保证检测速度的同时也达到了90%左右的准确率，并且能够一定程度上克服空洞问题。

5.2 运动目标跟踪模拟实验

根据智慧教室的特点采用HOG+朴素贝叶斯跟踪算法，为了验证此跟踪算法的实际效果，本文同样地比对3个跟踪算法的性能。其结果如表4所示。

将本文算法与基于灰度标识、基于角点标识算法进行比对，通过检测连续时间内有效动作跟踪帧与运动帧总数的比值得到跟踪的正确率。从表4中可看出，本文算法的准确率高于90%，其跟踪的准确性相较于其他两种更具优势。

5.3 运动目标定位跟踪算法实验

为了验证运动目标定位跟踪算法的可行性，同样选取教室摄像头录制的10 min教学视频进行实验。实验结果图如表5所示。

从表5中可看出系统定位跟踪的准确率超过了90%，基本能达到现场要求。对比老师跟踪与学生跟踪的准确率，可以发现老师跟踪的准确率比较低，这是因为学生跟踪场景更简单单一。

6 结论

基于图像处理的智慧教室录播系统是一套集音视频处理、主控人机交互以及多媒体软硬件配置一体化的协同运行系统。该系统通过研究师生在教学过程中的运动，进行实时的跟踪定位以及镜头切换。该系统具有以下几点优势：

(1)图像处理技术的使用减少了课堂教学录制过程中的人力投入，降低了设备成本，提高了自动化水平。

(2)提供课堂授课完整资源，供学生回顾与加强学习，供老师分析课堂授课效果，了解学生真实反映情况，以使其进行教学改进。

(3)提高知识的传播效率，进一步促进了教育资源的网络共享，同时也是对教学模式的一种革新。

参考文献

[1] 安宁，牛爱芳，齐瑞红，等.高校智慧教室建设的探索与思考[J].实验技术与管理，2017(5)：257-261.

[2] 张军，黄忠毅，程樊启.从教学过程的需求分析录播系统的发展趋势[J].中国电化教育，2019(11)：113-115.

[3] 黄山涯.录播教室的功能设计及其建设[J].实验室研究与探索，2010，29(10)：391-393.

[4] 李先友，赵曙光，段永成，等.基于FPGA的实时MIPI CSI-2图像采集与处理系统[J].电子技术应用，2019，45(1)：103-106.

[5] 张志刚，赵振宇，张国兵.图像识别技术在网络录播系统中的应用研究[J].网络安全技术与应用，2014(4)：7-8.

[6] 高海壮，段先华.基于帧差法和混合高斯的海上运动目标检测[J].计算机与数字工程，2019，47(5)：1140-1144.

[7] 孙挺，齐迎春，耿国华.基于帧间差分和背景差分的运动目标检测算法[J].吉林大学学报(工学版)，2016，46(4)：1325-1329.

[8] 周剑华.基于智能图像跟踪定位的录播教室视同设计与实现[D].兰州：兰州大学，2018.

[9] 黄友文，万超伦.基于深度学习的人体行为识别算法[J].电子技术应用，2018，44(10)：7-11，16.

[10] Shen Bin，Su Xiaoyuan，GREINER R，et al.Discriminative parameter learning of general bayesian network classifiers[C].IEEE International Conference on Tools with Artificial Intelligence，2003：296-305.

作者信息:

邓小海，姜周曙

(杭州电子科技大学自动化学院，浙江杭州310000)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容