《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 设计应用 > 基于OCR技术的主数据管理功能研究与实现
基于OCR技术的主数据管理功能研究与实现
2015《电子技术应用》智能电网增刊
马思硕1,张 冰2,张 莹3
(1.国网北京市电力公司 信息通信分公司,北京 100071; 2.国家电网公司信息通信分公司,北京 100761; 3. 北京国电通网络技术有限公司,北京 100761)
摘要: 主数据的应用与数据质量息息相关。国家电网公司为进一步完善业务应用数据的质量和安全管理,推进建设了主数据管理系统。然而目前主数据管理系统的数据创建效率有待提升,供应商主数据的审核依旧采用人工审核方式。本文通过采用汉字OCR技术实现了供应商主数据的自动辅助审核功能,提高了数据质量和维护效率,提升了用户体验,获得了较高的用户满意度。
Abstract:
Key words :

  马思硕1,张  冰2,张  莹3

  (1.国网北京市电力公司 信息通信分公司,北京 100071;

  2.国家电网公司信息通信分公司,北京 100761; 3. 北京国电通网络技术有限公司,北京 100761)

  摘  要主数据的应用与数据质量息息相关。国家电网公司为进一步完善业务应用数据的质量和安全管理,推进建设了主数据管理系统。然而目前主数据管理系统的数据创建效率有待提升,供应商主数据的审核依旧采用人工审核方式。本文通过采用汉字OCR技术实现了供应商主数据的自动辅助审核功能,提高了数据质量和维护效率,提升了用户体验,获得了较高的用户满意度。

  关键词: 主数据;数据质量;OCR技术

0 引言

  随着国家电网公司信息化工程的进一步深化和推进,公司对业务数据和信息化数据进一步重视,数据质量和数据安全已成为公司关注的重中之重。当前信息行业越来越重视对大数据的应用,利用目前已有的业务数据对行业和公司的发展进行判断和预测,未来服务中心和咨询中心的核心也将是对数据的分析和处理,这对信息数据的规范性和质量提出了更高的要求。通过进一步规范数据和提升数据质量,满足大数据时代对于数据更加严格的要求[1]。

  主数据的应用与数据质量相辅相成、互相推动。主数据管理系统的构建和执行是提升公司数据管理与应用水平、保障可靠数据质量的关键措施。为了提升数据的一致性、完整性、相关性和精确性,国家电网公司推进建设了主数据管理系统,实现了对大部分主数据的统一管理[2]。从公司层面把从多个业务系统中抽取的主数据并进行整合,集中进行数据清洗,并以服务的方式把统一、完整、准确的主数据分发给企业的操作型和分析型应用。使公司能够有效地管理存储在分布系统中的数据,并对数据进行验证。

1 主数据管理系统应用现状

  国家电网主数据管理系统依托数据资源管理平台,建立了主数据管理的标准规范和管理体系。自上线运行以来,公司通过主数据管理系统先后实现了对物资、财务、项目、人资、营销等五大类主数据的集中管理和维护[3-4],为业务系统提供实时、完整、准确的主数据信息。

  主数据管理系统的建设目标是创建低成本、高扩展性、标准、优质的可共享主数据。主数据管理系统需在保证高数据质量的前提下,实现数据在不同业务系统之间传输和同步的自动化。为保证数据的准确性,国家电网公司主数据管理系统创建了数据审批机制,数据的审核包含自动校验和人工审批两方面。主数据创建申请提交后,系统将通过数据查重等简单规则进行规范性、唯一性校验。经过系统自动校验后的主数据申请需按工作流完成在线审批后,方可入库。

  主数据创建效率和准确性是衡量系统的重要标准之一。为了保证数据的创建效率,对于数据规范性要求比较高的主数据均设置了至少两级的审批环节,主数据的维护准确性得到了大大提升,但是创建效率上并不十分令人满意。供应商主数据是主数据管理系统中最重要的数据类型,供应商主数据从提报数据、经过两级审批通过,到最终统一分发最少需要1天的时间,如遇数据量大或工作繁忙等情况,整体流程甚至会延长至多天。对于入库紧急程度较高的主数据,目前的审核流程还无法满足用户的使用需求。

  本文对该问题进行重点分析和研究,提出一套基于OCR技术的优化方案,利用技术创新对以上问题进行了功能优化,并通过了方案论证、测试部署验证,有效地提升工作效率,改善了主数据管理系统的功能。

2 利用OCR技术实现供应商主数据自动审核功能

  2.1 供应商主数据审批功能

  主数据管理系统的数据管理模块是本系统的核心,该模块包含主数据的查询、申请、审批等主要功能,以及数据和配置的管理,数据分发和报表管理等功能。

  当用户对供应商主数据提出申请后,将通过省(市)公司运维和总部主数据运维两级审批,审批通过后将创建或更新主数据。经统计,仅2014年通过主数据管理平台申请创建和更新的供应商主数据就有82 000条,其中公司类数据占到90%以上,而该类数据需上传的信息包括组织机构代码证、税务登记证、营业执照三类电子扫描图片,两级审批人员都需对这三项信息进行人工对比审核,效率低且需大量的人力支持。总部运维情况如表1所示。

001.jpg

  从以上表格可以看出,需要运维人员为3-6人,且长时间的重复工作必然导致效率和准确率的下降。此外,运维组还需承担其他种类主数据的审批、电话咨询、工单处理、应用分析以及专项工作等多项工作,工作量繁重,运维效率亟待提升。

  2.2 OCR技术介绍

  光学字符识别(Optical Character Recognition,OCR)技术是通过检测印刷或手写文字的暗、亮模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程[5]。

002.jpg

  目前,OCR技术已经在图书业、印刷业等相关产业广泛使用,对数字和西文字母印刷字体的识别率达到99.99%以上[6]。我国从上世纪70年代末起开始研究汉字识别技术(Chinese Character Recognition),目前国内已经有多项成熟的汉字识别技术在广泛使用,对印刷汉字的识别成功率都在99.96%左右[7],如北京信息工程学院研制的BI-OCR和清华大学研制的TH-OCR等。汉字识别OCR技术的原理框图如图1所示。

003.jpg

  由图1可以看出,汉字识别的具体步骤为:先对文字进行前处理,将灰度值变换为黑白二值,之后对汉字文本进行图像处理、分析、行切分、字切分、规范化(文字尺寸、位置、笔画粗细等规范),在抽取特征后, 跟存储在字典中已知的标准汉字特征集匹配判别,就可以识别出输入的汉字。最后,利用上下文匹配关系或机器学习等方法进行后处理,进一步提高识别的准确率。

  2.3 供应商主数据自动审核功能实现步骤

  本研究的具体思路为,在不改变原有审批流程和准确率的基础上,进一步提升审批工作的效率。按照这种思路,设计如下的自动审核步骤。

  (1)规范供应商材料格式

  由于使用的扫描仪型号不同,操作人员水平有差异,所以需要对上传的图像质量在分辨率、清晰程度以及扫描方法等各方面提出要求,通过对输入图像格式的要求,可以极大地提升自动审核的准确率和成功率。

  分辨率:统一分辨率为300 dpi;

  清晰度:彩色扫描,文字清晰,边框边线清晰;

  扫描方法:摘除封面,将扫描仪设置成原稿纸扫描模式。

  在用户上传供应商数据资料时,系统进行预判,如不满足格式要求,将要求用户重新上传。

  (2)OCR技术自动审批

  为了更好地适应当前系统,并保证准确率,自动审批环节保留原有的省(市)公司和总部两级人工审批。自动审批有可能出现3种情况,见表2。

  由于主数据审批存在正确对照文字,前两种情况对于审批准确率不会产生影响。为了尽可能的杜绝第三种情况的发生,使用了BI-OCR和TH-OCR两种OCR技术进行自动识别,进一步降低了审批的错误率。由于两种技术对于印刷汉字的成功率都很高,所以两种识别技术都验证正确后即可认为审批通过,如果机器两次识别结果不同,则将自动审批不通过的文件加标识后转到人工审批。具体的审批流程如图2所示。

004.jpg

  (3)OCR自动审批界面设计

  在系统界面中,除在供应商主数据申请环节对数据格式进行一定的约束外,在省(市)和总部主数据运维两步审批环节,均设置自动审批按钮,通过调用OCR的自动识别开发包(SDK)对图片中的文字进行识别审批,如图3所示。

005.jpg

  2.4 供应商主数据自动审核功能实现测试

  通过对供应商主数据自动审核功能的多次设计实验,使用单一的自动审核已经可以达到较高的识别率。对随机选取的110份原稿扫描文件进行了测试,其中工商登记证、税务登记证各30份,组织机构代码证40份,身份证10份,字符识别率达到94%,字段识别率为90%。而通过使用主数据自动辅助审批流程,使用人工和自动双审批机制,准确率达到100%。

3 效益分析

  通过以上的功能优化,使得工作效率得到极大的提升,通过应用采用OCR技术,使得大量的日常审批工作可以由机器自动完成,节省了人工成本。通过该项功能优化,在提升效率的同时也提高的用户满意度。下面对功能优化带来的效率提升和准确率提升分别进行量化分析。

  3.1 效率提升

  由于熟练运维人员的工作效率一定,本研究使用工作量进行效率分析。

  在供应商主数据审批功能优化中,利用两种技术对一副图片的识别审批速度都在1 s左右,对应于一个供应商的公司类数据有三份必须资料,利用两项技术独立串行审批需6 s左右,并行审批只需3 s左右。对于这三份必须资料,两次自动审批都通过的比率大概占到60%左右,而转人工审批的资料文件中,存在关键字段字体重叠、印刷位置错误等现象而无法自动审批的文件占50%左右。即机器总的审批数能占到80%左右。机器辅助审批工作量统计见表3,效率提升统计见表4。

007.jpg

006.jpg

  通过表4可以看出,审批效率提升了5倍左右,而且审批条数越多,效率越高,对于一般的审批工作量,一个运维人员已经可以完全胜任。

  3.2 准确率提升

  众所周知,人的注意力处于一个变化的状态,而且受身体状况、心情、睡眠状况等多种因素影响[8],而机器的注意力可以认为是不会下降,甚至随着机器学习的进展,识别准确率会有进一步的提升。

  由于经过了两级审批,人工的识别准确率在99%左右。而机器辅助审批经过两种算法的判断识别,识别准确率保持在99.99%以上。

4 结束语

  主数据管理作为数据治理中最为核心的一环,是企业获得一个完整、可信的数据视图的必经途径。本文通过对国家电网公司主数据管理系统相关功能进行研究,采用先进的OCR技术实现了数据的自动辅助审批。在实际应用中,大幅度提升了运维效率和运维质量,经测算,运维效率提升了3倍左右,使得运维资源能够更多的向咨询和应用分析等工作倾斜,在提升运维质量的同时,提升了用户的服务满意度。

  下一步的建设和运维工作将着眼于建立行之有效的主数据运维体系,挖掘主数据运维的潜力,有效提升主数据运维的质量,从而充分体现数据这项无形资产在企业中的核心价值。

参考文献

  [1]张当中.汉字识别技术综述[J]. 语言文字应用,1997(2): 77-86.

  [2]马玲. 基于主数据管理的电网调度数据整合[D].昆明:云南大学.2014.

  [3]岳晓峰,焦圣喜,韩立强,等.模式识别中的光字符识别技术及应用综述[J].河北工业科技,2006, 23(5):312-316.

  [4]吕冬.山东电力ERP与SG-MDM实现项目主数据纵向贯通[J]. 电力信息化.2011,9(3):28-31.

  [5]张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,06: 8-12.

  [6]李成城,白涛, 赵述芳等. 基于OCR的纵向文字校对的研究与实现[J].计算机应用研究,2006,(4):234-236.

  [7]贾红龙.面向服务体系架构(SOA)的主数据管理(MDM)和流程监控(PM)研究[J].信息技术与信息化,2010(2):78-82.

  [8]颜鲁林.利用SPSS对大学生学习注意力集中程度进行多元线性回归分析[D].兰州:兰州大学.2012.


此内容为AET网站原创,未经授权禁止转载。