基于X-Linear和语义嵌入的视频描述算法-AET-电子技术应用

基于X-Linear和语义嵌入的视频描述算法

信息技术与网络安全

李亚杰，关胜晓，倪长好

(中国科学技术大学微电子学院，安徽合肥230026)

摘要： 注意力机制和视频语义嵌入使得视频描述任务取得了显著的提升，为更好地利用时序动态特征和语义信息，提出一种基于X-Linear的语义嵌入视频描述算法(X-Linear Semantic Embedding Network，XLSNet)。该算法以基于编码解码器网络为基础，使用X-Linear注意力模块对视频特征进行编码，该模块使用双线性池化来增加视频时序特征的高阶交互，最终提取丰富的时序动态特征；为充分利用视频语义信息，使用语义嵌入的GRU和X-Linear作为解码器对视频描述进行生成。为防止过拟合现象，对解码器的GRU使用了层归一化和变分Dropout。所提出的算法仅仅使用了视频帧特征，在公开视频描述数据集MSVD上取得了很好的效果。

关键词： 视频描述语义嵌入 X-Linear注意力 XLSNet

中图分类号： TP183
文献标识码： A
DOI： 10.19358/j.issn.2096-5133.2021.02.008
引用格式：李亚杰，关胜晓，倪长好. 基于X-Linear和语义嵌入的视频描述算法[J].信息技术与网络安全，2021，40(2)：45-51.

Video caption algorithm based on X-Linear and semantic embedding

Li Yajie，Guan Shengxiao，Ni Changhao

(School of Microelectronics，University of Science and Technology of China，Hefei 230026，China)

Abstract： The attention mechanism and video semantic embedding have significantly improved the video description task.In order to make better use of the temporal dynamic features and semantic information of the video,a X-Linear-based semantic embedding video description algorithm(X-Linear Semantic Embedding Network，XLSNet) is proposed. The algorithm is based on a encoder-decoder network and uses the X-Linear attention block to encode video features. This block uses bilinear pooling to increase the high-order interaction of video temporal features, and finally extracts rich temporal dynamic features. In order to make full use of video semantic information, semantically embedded GRU and X-Linear are used as decoders to generate video descriptions. To prevent over-fitting, layer normalization and variational Dropout are used for the GRU of the decoder.The proposed algorithm only uses video frame features, and has achieved good results on the public video description data set MSVD.

Key words : video caption；semantic embedding；X-Linear attention；XLSNet

0 引言

视频描述任务是将计算机视觉信息转换为人类能够理解的自然语言句子的描述。将计算机视觉内容理解和自然语言处理两个领域相结合用于解决视频描述是一项极具挑战性的任务。视频描述涉及对许多实体的理解，这些实体包括场景、人物、物体、人的动作、人与物体的交互、人与人的交互、其他事件以及事件发生的顺序等。所有这些信息必须使用自然语言处理(Natural Language Processing，NLP)技术，以一种可压缩的、语法正确的文本表达出来。视频描述任务可以应用于很多领域，如智能安防、盲人导航、视频检索、人机交互等。

本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003378

作者信息:

李亚杰，关胜晓，倪长好

(中国科学技术大学微电子学院，安徽合肥230026)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容