面向图像语义分割的多类型卷积加速器设计-AET-电子技术应用

面向图像语义分割的多类型卷积加速器设计

中国电子科技集团第五十八研究所，江苏无锡 214035

史兴强，强小燕，巩凯，邢梦菲

摘要： 图像语义分割网络为了提升精度常采用结构复杂的卷积层作为基础的特征提取单元，这类卷积层存在的不同类型卷积增加了对网络并行加速计算的难度。针对语义分割网络不同类型的卷积的加速计算需求，提出一种基于FPGA的面向多类型卷积的并行计算加速器。首先对卷积的计算原理进行分析，然后根据不同卷积类型的基本运算原理构建多乘法并行计算的处理单元，并通过多处理单元并行、数据重用以及PIPELINE方法对卷积进行加速计算。实验结果表明，对于特定尺寸的特征图，使用所提的卷积加速器设计方法最多可以达到113倍的速度提升。关键词：图像语义分割；多类型卷积；FPGA；计算加速

关键词： 图像语义分割多类型卷积 FPGA 计算加速

中图分类号：TP391 文献标志码：A DOI: 10.16157/j.issn.0258-7998.234591
中文引用格式： 史兴强，强小燕，巩凯，等. 面向图像语义分割的多类型卷积加速器设计[J]. 电子技术应用，2023，49(12)：26-30.
英文引用格式： Shi Xingqiang，Qiang Xiaoyan，Gong Kai，et al. Design of multi type convolution accelerator for image semantic segmentation[J]. Application of Electronic Technique，2023，49(12)：26-30.

Design of multi type convolution accelerator for image semantic segmentation

Shi Xingqiang，Qiang Xiaoyan，Gong Kai，Xing Mengfei

No.58 Research Institute of China Electronics Technology Group Corporation， Wuxi 214035， China

Abstract： In order to improve accuracy, image semantic segmentation networks often use complex convolutional layers as the basic feature extraction units. The different types of convolutions present in these convolutional layers increase the difficulty of parallel acceleration computation for the network. A parallel computing accelerator based on FPGA for multi type convolutions is proposed to meet the accelerated computing requirements of different types of convolutions in semantic segmentation networks. Firstly, the calculation principle of convolution is analyzed. Then, based on the basic operation principles of different convolution types, a processing unit for multi multiplication parallel computing is constructed. The convolution is accelerated through multi processing unit parallelism, data reuse, and PIPELINE method. The experimental results show that for specific size feature maps, using the proposed convolutional accelerator design method can achieve a maximum speed increase of 113 times.

Key words : image semantic segmentation；multi type convolutions；FPGA；computational acceleration

0　引言

图像语义分割是将图像的每个像素分类为一个实例[1]。该技术是场景理解的基础性技术[2]，在自动驾驶[3-5]、人机交互[6]、计算摄影[7]、图像搜索引擎[8]以及医学图像研究[9-11]中起到重要作用。随着深度学习发展，基于CNN的图像语义分割方法逐渐成为图像语义分割的主流[12]。

图像语义分割在嵌入式边缘端有着广阔的应用前景，但是嵌入式边缘设备的处理核心多是基于精简指令集的微处理器，由于顺序数据处理方式的限制，使得网络中的计算无法高效并行完成。为了提升网络在嵌入式边缘端处理效率，在嵌入式边缘端对CNN进行加速的研究受到广泛关注，出现了大量基于高性能计算处理器的网络加速方法[13-16]。其中，FPGA由于内部包含有大量的可编程逻辑资源，可以构建高并行的计算结构，在较低工作时钟频率下仍能实现较高的算法处理速度，可以满足功耗受限的嵌入式边缘端应用的需求，成为嵌入式边缘端网络推理加速的主流硬件加速器之一。但是，当前基于FPGA的深度学习推理加速方法主要面向以单一标准卷积构建的神经网络，而为了提升语义分割的精度以及减少语义分割的计算量，出现了空洞卷积、点卷积、深度卷积和标准卷积等多种卷积运算，需要设计能够支持多种类型卷积的加速器。

针对以上问题，本文提出一种基于FPGA的多类型卷积加速器设计方法，并通过对不同并行度和不同计算结构的加速器进行对比实验，验证加速器设计方法的有效性。

本文详细内容请下载：https://www.chinaaet.com/resource/share/2000005801

作者信息

史兴强，强小燕，巩凯，邢梦菲

（中国电子科技集团第五十八研究所，江苏无锡 214035）

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容