中文引用格式: 万成凯,李居朋. 基于改进CenterNet的发票检测算法[J]. 电子技术应用,2025,51(6):71-78.
英文引用格式: Wan Chengkai,Li Jupeng. Detection algorithm for invoice based on improved CenterNet[J]. Application of Electronic Technique,2025,51(6):71-78.
引言
随着社会的不断发展,大量发票的录入和归档,对于财务人员是相当繁重的工作。在以往的工作中,财务人员往往采用手工录入的方式,这种录入方式不但效率低下,而且常常因为工作人员的疲劳产生错误而造成损失。随着图像处理与深度学习技术的兴起,越来越多的研究人员开始研究基于数字图像技术的发票自动识别算法[1-2]。
基于数字图像技术的发票自动识别通常包括发票检测、发票信息区定位、字符定位、字符识别等步骤。其中首要的步骤就是发票检测。发票检测是检测出一张图像中是否存在发票,并对每张存在的发票进行精确定位。由于在实际的财务归档工作中发票的朝向往往上下左右各不相同,因此发票检测不但要检测出发票的类型、位置,还要同时检测出发票的朝向。
目前基于深度学习的目标检测方法可以分为one-stage和two-stage方法两类。two-stage的方法如Faster R-CNN[3]。这类检测方法整个检测过程分为两个阶段。在第一个阶段,算法需要找到一些可能的目标存在区域;在第二个阶段,算法在这可能的区域上进行分类和位置回归。这类方法检测精度高,但运行速度通常会比较慢,难以满足实时检测的需求。
one-stage的方法如YOLO系列[4-8]、SSD[9]等。这类检测方法是一个端到端的检测过程,它可以直接回归出物体的类别和位置。该类方法过程简洁、检测速度快,目前已被广泛应用于各种目标检测任务当中,但其准确性仍有待提高。
YOLO系列、SSD等检测方法均属于基于锚点(anchor)的方法,需要事先统计anchor尺寸和比例等先验知识,而且在计算过程中,会计算大量无用的候选框。虽然算法后期可以通过非极大值抑制等方法去除多余的候选框,但会带来计算开销的增加。以CenterNet[10]为代表的无anchor检测方法克服了基于anchor方法的缺点,可以直接对目标中心点和尺寸进行预测。
本文结合YOLOv5的主干网络和CenterNet各自的优点,提出了一种改进的CenterNet发票检测算法。算法模型采用参考了CSPDarkNet的主干网络,引入了注意力机制,并且采用新的输出结构和损失函数,可以端到端地检测出发票的分类、位置和朝向。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006565
作者信息:
万成凯1,李居朋2
(1.北京世纪瑞尔技术股份有限公司 北京 100085;
2.北京交通大学 电子信息工程学院,北京 100044)

