一种应用于语义分割的新型亲和力监督方法-AET-电子技术应用

一种应用于语义分割的新型亲和力监督方法

信息技术与网络安全

曹露濛，杨周旺

（中国科学技术大学大数据学院，安徽合肥230026)

摘要： 语义分割是计算机视觉领域一项基本且具有挑战性的任务，最近的语义分割研究工作，着力于设计注意力机制和全局性模块，而在注意力机制中，亲和力矩阵是非常重要的部份。传统的亲和力矩阵是以注意力机制的一部分嵌入在神经网络中，通常作为特征融合的权重来使用。尝试直接将亲和力矩阵应用于注意力机制之外，与语义标签联系起来。首先定义标签亲和力矩阵，再在语义分割网络输出层计算亲和力矩阵，将两个矩阵结合起来，得到一个辅助的惩罚函数。标签亲和力矩阵可以视为一种结构上的监督信息，能辅助训练语义分割网络。在NYUv2数据集上的实验结果表明，惩罚函数有助于提高语义分割网络的精度，并且效果显著。

关键词： 语义分割卷积神经网络亲和力矩阵自注意力

中图分类号： TP389.1
文献标识码： A
DOI： 10.19358/j.issn.2096-5133.2021.07.011
引用格式：曹露濛，杨周旺. 一种应用于语义分割的新型亲和力监督方法[J].信息技术与网络安全，2021，40(7)：66-71.

A new affinity supervision for semantic segmentation

Cao Lumeng，Yang Zhouwang

(School of Data Science，University of Science and Technology of China，Hefei 230026，China)

Abstract： Semantic segmentation is a basic and non-trivial task in computer vision. Many previous work focus on utilizing attention mechanisms and non-local models. In attention mechanisms, affinity matrix is very important. Traditional affinity matrix is an essential part of attention models embedded into the neural networks, used as feature fusion weights. In this paper, the affinity matrix is directly used out of attention mechanisms, and it is associated with labels. Firstly, the label affinity matrix is defined, and then the feature affinity is computed on the output layer of semantic segmentations. Finally, with such two affinities, a novel loss function is defined, which uses label affinities as a kind of structural supervision to help train segmentation networks. Extensive experiments on NYUv2 datasets demonstrate that the loss is effective in promoting semantic segmentation networks.

Key words : semantic segmentation；convolutional neural network；affinity matrix；self-attention

0 引言

语义分割是计算机视觉中一项具有挑战性的任务，在自动驾驶、机器人、卫星、农业、医疗诊断等领域有着广泛的应用。它是一项稠密分类任务，旨在对图像进行像素点级别的分类。由于卷积神经网络技术的迅速发展，许多语义分割神经网络应运而生。例如，FCN[1]使用卷积层来代替完全连接层，使得神经网络能够适应任何输入大小。Deeplab[2]，PSPNet[3]采用空间金字塔池化来提取不同尺度的特征，然后合并特征来获取不同尺度的上下文信息。长期以来，研究者们致力于特征复用方法和注意机制来设计分割网络[4-6]。使用残差和密集的跳跃连接来聚合和复用不同层的特征，使得语义分割更加准确，并使梯度更容易反向传播。注意力模型[7-9]和非局部模型[10-11]弥补了卷积核的局部局限性，可以捕获长程依赖。最近的研究显示了像素分组的重要性[12-15]。Zhong Zilong等人[12]提出语义分割可以分为两个子任务：显式像素预测和隐式像素分组。Yu Changqian等人[13]使用标签对类别内和类别间的先验知识进行建模，以指导网络的学习。KE T W等人[14]提出了一种自适应亲和场(Adaptive Affinity Field，AAF)来捕获和匹配标签空间中相邻像素之间的语义关系。Jiang Peng等人[15]提出了一种扩散分支，它由一个用于得分图的种子子分支和一个用于像素级相似性的子分支组成。条件随机场(Conditional Random Fields，CRFs)[16-18，2]方法用于语义分割，利用上下文信息优化网络输出，这是一种统计方法，用于对相似像素进行分组，并通过能量函数优化得分图(score map)。以前的许多CRFs都是对网络输出的后处理。VEMULAPALLI R等人[17]和CHANDRA S等人[18]在CNN中引入了高斯条件随机场，并取得了很好的效果。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000003680

作者信息：

曹露濛，杨周旺

（中国科学技术大学大数据学院，安徽合肥230026)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容