基于标签嵌入的多模态多标签情感识别算法-AET-电子技术应用

基于标签嵌入的多模态多标签情感识别算法

网络安全与数据治理 2022年第1期

张超，张信明

(中国科学技术大学大数据学院，安徽合肥230026)

摘要： 多模态情感分析目前是多模态分析和自然语言处理领域的研究热点，在商品推荐、智能客服等场景中具有广泛的应用。现有的方法在多标签场景下对标签间依赖性表示不充分，并且忽略了模态特征之间语义差距。对此提出了一种基于标签嵌入的多模态多标签情感识别算法，通过训练的标签嵌入向量捕获标签之间依赖关系，对模态特征添加约束减小模态之间的语义差距。实验结果显示，该算法在多模态多标签情感识别任务中在准确率和汉明损失指标上相较于现有方法有明显提升。

关键词： 多模态情感识别多标签标签嵌入

中图分类号： TP391.1
文献标识码： A
DOI： 10.20044/j.csdg.2097-1788.2022.01.016
引用格式：张超，张信明. 基于标签嵌入的多模态多标签情感识别算法[J].网络安全与数据治理，2022，41(1)：101-107.

Label embedding based multimodal multi-label emotion recognition

Zhang Chao，Zhang Xinming

(School of Data Science，University of Science and Technology of China，Hefei 230026，China)

Abstract： Multimodal utterance-level emotion recognition has been a hot topic in both multimodal analysis and natural language processing communities which has a variety of applications such as product recommendation and intelligent customer service. Previous methods do not adequately represent inter-label dependencies in multi-label scenarios and ignore the semantic gap between modality features. The proposed method uses learned label embedding to capture label dependency and adds a constraint to modality features aiming at learning modality-invariant representations to reduce the modality gap. Detailed experimental results demonstrate that the proposed method has a significant improvement on accuracy and hamming loss on the multi-modal multi-label emotion recognition task compared with existing methods.

Key words : multimodal；emotion recognition；multi-label;label embedding

0 引言

随着互联网与社交媒体的不断发展，越来越多的人使用包含文本、语音、图像在内的多模态数据在社交媒体上表达自己的看法或观点。海量的多模态数据中蕴含着丰富的情感信息，对多模态数据进行情感分析有利于了解人们对某些事件的态度和看法，在舆论监控、商品推荐、股市预测等方面具有很大的应用价值。此外，近年来的研究表明，与单模态情感识别模型相比，多模态模型在处理社交媒体数据时具有更强的鲁棒性，并在识别准确率方面取得了显著的改进[1]。不同的模态信息可能暗含着不同的情绪，如图1所示，可能从文本信息中只能推断出厌恶的情绪，而从视觉和语音的组合信息中推断出悲伤和生气的情绪，因此必须充分融合来自不同模态的信息才能准确识别出多模态数据中的情感信息。

尽管目前多模态情感分析在模型性能方面已经取得了较好的效果，但是仍然存在两个问题需要解决。第一个问题是情感识别在现实场景中通常是一个多标签分类问题，如何对标签依赖关系建模并使用标签信息是一项具有挑战性的任务。目前大多数工作将多标签分类问题转换为多个二分类问题，而忽视了标签之间的依赖性。另一个问题是异构模态信号之间的巨大语义差异，使得模态特征难以直接融合。

目前关于多模态情感分析的研究主要集中在设计高效的模态融合机制。Zadeh等[2]利用张量的外积来对不同模态之间的相互作用进行建模，Tsai等[3]提出了基于注意力的模型，使用跨模态注意力融合来自不同模态的信息。尽管这些模型在多模态情感识别任务中取得了良好的效果，但是忽略了模态特征之间的语义差异，影响了多模态特征融合的效果。Ju等[4]提出了基于序列生成的模型来解决多模态多标签情感识别问题，利用序列生成的方式对标签之间依赖关系建模，但是这种方法依赖于预先定义的标签顺序并且计算效率低。

本文提出了一种基于标签嵌入的多模态多标签情感识别算法，即使用标签嵌入向量对标签依赖性建模，使用模态不变表示来减少模态语义差异。首先，鉴于情感标签包含着丰富的信息，本文使用标签之间的共现信息来学习多模态情感标签嵌入。然后，使用CMD分布度量[5]限制不同模态特征的分布差距，获得模态不变表示，这种限制有助于缩小不同模态之间的语义差距，从而使用更简单的融合方法融合不同模态特征。最后，将所有的模态特征连接起来，利用学习到的标签嵌入和融合特征完成情感识别任务。

本文在一个公开的多模态多标签情感数据集CMU-MOSEI上进行了广泛的实验，以评估方法性能。实验结果表明，该方法能够有效地融合模态特征并且对标签依赖进行建模。本文主要贡献有：

(1)使用标签的共现信息来学习标签嵌入，用标签嵌入来表示标签依赖关系。

(2)考虑了模态特征之间的语义差距，通过在损失函数中添加对模态特征的约束来减小模态特征语义差距。

(3)MOSEI数据集的实验结果表明，该方法在多模态多标签情感识别任务上相较于现有方法，性能有明显提升。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000004619

作者信息：

张超，张信明

(中国科学技术大学大数据学院，安徽合肥230026)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容