复杂场景下基于Radon校正与MSER的文本定位算法研究-AET-电子技术应用

复杂场景下基于Radon校正与MSER的文本定位算法研究

2016年微型机与应用第21期

刘杨

中国矿业大学信息与电气工程学院，江苏徐州 221116

摘要： 针对复杂场景下，由于文字背景复杂性而带来的文字定位不准确的问题，提出了一种Radon倾斜校正与MSER（最大稳定极值区域）结合的算法，基于该算法识别出文字在所处复杂背景中的位置。首先，对图像进行预处理，采用Canny算子对图像进行边缘检测，并利用Radon变换对倾斜图像进行校正。然后通过二进小波变换对图像进行增强处理，去除噪声。最后提取MSER，经过粗处理、细处理后，检测出文本所处位置。实验结果表明，基于Radon倾斜校正与MSER结合的方法，能够有效提高文本定位的准确率。

关键词： Radon倾斜校正 Canny算子二进小波变换最大极值区域

Abstract：

Key words :

　　刘杨

　　（中国矿业大学信息与电气工程学院，江苏徐州 221116）

摘要：针对复杂场景下，由于文字背景复杂性而带来的文字定位不准确的问题，提出了一种Radon倾斜校正与MSER（最大稳定极值区域）结合的算法，基于该算法识别出文字在所处复杂背景中的位置。首先，对图像进行预处理，采用Canny算子对图像进行边缘检测，并利用Radon变换对倾斜图像进行校正。然后通过二进小波变换对图像进行增强处理，去除噪声。最后提取MSER，经过粗处理、细处理后，检测出文本所处位置。实验结果表明，基于Radon倾斜校正与MSER结合的方法，能够有效提高文本定位的准确率。

　　关键词：Radon倾斜校正；Canny算子；二进小波变换；最大极值区域；文本定位

0引言

　　对于简单背景中的文字（如文档图像），其布局设计是相对固定的，方便读者阅读，降低了文本区域分割的难度［1］。

　　复杂场景中，存在着各种丰富的信息，如车牌号、指示牌等。因此获取复杂场景下的文本区域位置，有利于有效信息的提取。然而，由于光照、拍摄角度、背景过于复杂等原因，复杂场景下的文本定位与文字识别，相对于简单的背景，实现的难度更高，且识别的准确度较低。

1相关研究

　　文本定位算法，主要包括基于连通域的定位方法、基于纹理特征的定位方法和基于边缘特征的定位方法。基于上述方法，人们做了大量的研究与应用［2-8］。然而上述方法在复杂场景中，存在文本定位精度不高、算法运行较慢等缺点。正是基于上述分析，提出了本文的定位算法。

2文字定位算法

　　2.1算法设计

　　采用Radon倾斜校正与连通域分析相结合的算法对复杂场景中的文字进行定位。文字定位算法流程图如图1所示。

图像 001.png

　　本文算法的文字阐述如下：首先对图像进行预处理。由于拍摄角度的问题，所获得的图像或多或少会有一定的倾斜，所以利用Radon倾斜校正，检测水平边和垂直边，得到校正后的图像。

　　预处理之后得到的仍为彩色图像，且Radon倾斜校正中利用了Canny边缘检测算子，产生了噪声，造成图像部分信息的丢失。所以需要对图像进行增强处理，即利用二进小波变换处理图像。图像增强处理之后，需要对图像进行MSER提取，然后再进行粗处理、细处理，最后通过连通域分析，得到文本区域在图像中所处的位置。

　　2.2Radon倾斜校正

　　Radon倾斜校正对几何旋转、JPEG压缩、滤波等有较好的鲁棒性［9］。本文采用Canny算子先对灰度化处理后的图像进行水平和垂直两个方向上的边缘检测［10］。经过预处理后，进行Radon倾斜校正。

　　2.3基于二进小波变换的图像增强算法

　　经过图像倾斜校正处理后，图像不可避免地出现了噪声。为了增加文本区域定位的准确率，采用二进小波变换算法对图像进行增强处理［11］。每层的小波分解需要将待分解图像分解为：水平、垂直方向均是低频分量，水平低频、垂直高频，水平高频、垂直低频，水平与垂直均是高频分量的4个子带图像。并将这4个子带图像分别记为：LL、LH、HL、HH。

　　二维二进小波变换的重构公式：

　　 QQ图片20161207144037.png

　　在图像处理过程中，增强系数可以由图像的噪声水平与感兴趣细节所在的尺度来进行选择。设增强系数为Wj，i，加入该系数后，重构公式变换为：

　　 QQ图片20161207144039.png

　　其中，j为尺度系数，i表示LH、HL、HH三个图像，可取值为1,2,3。

　　利用二进小波对图像进行增加处理的主要步骤有：

　　（1）基于a′trous算法，对图像进行小波分解。

　　（2）引入增强系数Wj，i，得到每层的二进小波系数，然后按如下公式变换：

　　 QQ图片20161207144044.png

　　（3）将得到的小波系数进行逆二进小波变换，获得增强处理后的图像。

　　2.4基于MSER（最大极值稳定区域）算法进行文本定位

　　通过二进小波，图像质量有了明显改善。在这之后，通过MSER算法对图像中的文本区域进行定位。

　　2.4.1MSER提取

　　MSER算法包括MSER+和MSER-两个区域。添加新增像素点时，判断其属于哪个区域，并将其合并到该区域中。当像素点越来越多时，区域不断增大并彼此合并，然后根据最大稳定条件来判断该区域是否为最大极值稳定区域［12］。

　　2.4.2粗处理

　　通过对MSER的提取，图像中出现多个MSER。计算出每一个MSER的外界矩形的位置及其高度，同时分别将这些MSER归类于对应的MSER+、MSER-。由于复杂场景中，字符分布同样符合水平连续间隔的特性，所以这里采用参考文献［13］中的粗处理方法。

　　先分析出每两个MSER的位置关系，设提取到的MSER个数为N，则可以得到N×N的矩阵。若第i个MSER到第j个MSER间的中心距离满足条件：

　　 QQ图片20161207144049.png

　　则将M［i］［j］和M［j］［i］的值设为1。

　　其中，verticalDistance和horizontalDistance分别表示垂直距离和水平距离。maxPlateWidth和maxPlateHeight分别表示文本区域可能的最大宽高。

　　根据上述分析，所求的候选区域即为N×N矩阵右上角所有的四领域连通点对应的MSER。

　　2.4.3细处理

　　对得到的结果进行连通域分析。图像中有多个矩形候选区域，由先验知识设定以下限制：

　　（1）由于现实中字符数都比较多，字符数小于等于2个时，认定为非文本区域，将其剔除；

　　（2）将前景点像素个数与候选区中像素点个数之比大于50%的，判断为非文本区域，同样将其剔除；

　　（3）候选区域的宽高之比在120~20之间的，视为非文本区，需要剔除。

3仿真环境与实验结果及分析

　　利用MATLAB仿真平台，对本文提出的算法进行仿真。图像经过本文算法处理的每一步过程如图2~图7所示。

图像 002.png

图像 003.png

图像 004.png

图像 005.png

图像 006.png

图像 007.png

4结束语

　　针对复杂场景下文本区域定位精度不够的情况，本文提出了基于Radon倾斜校正与MSER相结合的算法，能降低因拍摄角度不同而对定位精度造成的影响，采用二进小波变换算法对图像进行增强处理，进一步消除噪声影响，最后利用MSER算法，快速有效地定位出了文本所在区域。文本区域的高效定位，有利于后续文本识别准确度的提高。

　　参考文献

　　［1］贾文静,曾超,敖永霞,等.室外场景中标识牌文字的检测与提取技术综述［J］.云南民族大学学报(自然学科版),2010,19(3): 157-161. ［2］王静,田洋洋,皇甫海燕.基于连通域阈值的自然场景文本图像分割技术［J］.新疆师范大学学报(自然科学版),2015,34(1):12-15.

　　［3］ MATAS J, CHUM O, URBAN M, et al. Robust widebaseline stereo from maximally stable external regions［C］.Proceedings of the British Machine Vision Conference, Cardiff, UK, 2002:384 393.

　　［4］莫会宇,王祝萍.一种结合MSER与SIFT算子的特征检测方法［J］. 东华大学学报(自然科学版),2011,37(5):624-628.

　　［5］ BAI Y P. BP network based on handwritten digital image feature extraction［J］. Advances in Applied Mathematics, 2014, 3(2):104-111.

　　［6］王建,周源华.一种基于纹理能量的JPEG图像文本定位算法［J］.上海交通大学学报,2004,38(9):1492-1495.

　　［7］何立强,刘浩,陈永.边缘与灰度检测相结合的场景图像文本定位［J］.中国图象图形学报,2013,18(2):1601-1609.

　　［8］贾冬勤,王洪元,程起才.基于自适应阈值Canny算子的视频文本定位方法［J］.常州大学学报(自然科学版),2014,26(1):47-52.

　　［9］何冰, 王晅, 赵杰. 基于Radon变换的抗旋转攻击零水印算法［J］. 计算机工程, 2009, 35(16):128-129.

　　［10］陈宏希.基于边缘保持平滑滤波的Canny算子边缘检测［J］.兰州交通大学学报,2006,25(1):86-90.

　　［11］吐尔洪江，艾斯卡尔，吾吉买买提,等. 基于二进小波变换的增强技术［J］.新疆师范大学学报（自然科学版），2006，25（4）：6-13.

　　［12］肖诚求,吉立新,高超，等.基于树修剪和多特征融合的场景文本检测［J］.信息工程大学学报,2015,16(5):590-595.

　　［13］肖意,姜军.基于最大稳定极值区域的车牌定位与字符分割［J］.计算机与数字工程,2015,43(12):2272-2274.

原创声明：此内容为AET网站原创，未经授权禁止转载。