基于云存储的电力全量业务数据归集体系研究-AET-电子技术应用

基于云存储的电力全量业务数据归集体系研究

2018智能电网增刊

梁霄，汤宁，张玮

南瑞集团有限公司，江苏南京 211106

摘要： 目前，国家电网公司拥有海量的历史存量数据以及不断增长的各类实时业务信息资源，各地电力公司的数据采用关系型数据库进行集中式存储，难以实现数据的高效计算、挖掘。要在此基础上实现全量业务数据归集，对海量数据进行统一处理，数据的存储是其中的关键环节。基于对云计算技术架构的研究，提出一种基于云存储的数据归集体系架构，该体系可以稳定、高效地解决全量业务数据归集过程中的海量数据存储问题，为全量业务数据归集提供可靠保障。

关键词： 云存储数据归集全量业务数据国家电网

中图分类号： TM76
文献标识码： A
DOI：10.16157/j.issn.0258-7998.2018.S1.038

Abstract：

Key words :

0 引言

建设全量业务、全时间维度、全类型的数据中心是国家电力公司运监中心数据归集工作的基础，其目标的是在此基础上为电力公司各类决策提供全面的信息支撑、高效的分析计算，以改变过去的数据冗余、重复抽取数据的局面，全面支撑电力公司大数据分析及应用。然而，由于国家电网电力公司涉及的应用系统较多，包括ERP、营销、生产、调度等业务系统，这些系统已经累积了海量的存量数据，同时还需要考虑各类设备的实时数据采集以及复杂的外部环境数据，数据量非常庞大。要在此基础上完成全量业务数据归集工作，海量数据的存储必须要解决的问题。考虑到集中存储的模式下，存储容量存在瓶颈问题且开支成本巨大，因此考虑使用云存储的模式进行海量数据的存储^[1]。

1 基于云存储的归集体系介绍

云存储是基于云计算框架衍生出的一种新概念，它是随着海量数据存储问题应运而生的，专注于为大数据的存储提供解决方案。它主要通过集群技术和新兴的网络技术把大量数据存储设备联合在一起协同工作，并能够对外提供统一的数据存储与访问的功能。云存储是一种低成本、可扩展的网络形式实用型服务^[2]。

目前，国家电网公司运监中心数据中心的数据不仅有海量的结构化以及非结构化存量数据，同时还有来自各个业务系统的实时采集数据，还存在国家电网数据的增长速度以及数据的保密性等问题。因此，需要在云存储的基础上综合考虑国家电网大数据存储问题的特殊性，科学合理地制定一套基于云存储的电力全量业务数据存储体系，从而为全量业务数据归集提供有力支持^[3]。

2 基于云存储的电力全量业务数据归集体系

依据国家电网公司运监中心对全量业务数据归集整体架构和技术路线的统一要求，首先需要将电力公司的数据接入缓冲区，随后再逐步进行热点数据库、实时数据库、数据集市、数据仓库的建设^[4]。因此，基于云存储的数据归集体系构架主要由以下层级组成：

（1）存储设备层

存储设备是云存储数据归集体系中的基础组成部分，它位于该体系的底层，由多种存储设备的组合使用，有用于作为缓冲区的MySQL数据库设备以及适用于分布式架构的MongoDB，其中MongoDB可以支持海量数据的高并发、低时延的吞吐操作及部署，同时它可以支持各种复杂的数据格式，非常适合用于国家电网电力大数据的分布式存储以及高速率读写^[5]。

（2）存储引擎层

存储引擎主要是对数据进行基础的管理，但却是云存储归集体系的核心层。由于云存储是基于网络技术及应用集群协同工作的模式，因此数据的安全性、一致性以及容错性都需要予以重点关注^[6]。引擎层主要通过DHT数据分布、强一致性数据复制、数据加密、集群状态管理、并行数据重建、集群故障自愈等技术来进行数据的管理，保证数据的一致性，安全性以及从灾变中恢复的能力。

（3）存储服务层

服务层主要用于提供数据访问以及数据备份服务。基于云存储的数据归集体系要求用户必须经过授权才能使用标准的服务接口进行登陆并使用里边的数据资源，同时为了保证大量用户登录时的访问速度需要使用Cache技术^[7]。该层主要由分布式快照、本地化Cache、精简配置、分级存储、数据备份模块组成。

（4）存储接口层

基于云存储的电力全量业务数据归集体系主要基于iSCSI/RBD接口协议实现。其中iSCSI是指IP协议中的SCSI指令集，它是一种开放的标准，主要使用TCP/IP协议进行指令封装，因此基于该协议可以在任何基于IP的网络之间进行传播。通过使用SCSI/RBD接口协议标准可以使用户方便地对数据进行存储及访问。

3 基于云存储的数据归集体系关键技术

3.1 虚拟分布式存储技术

虚拟存储技术是指通过虚拟的方法，把不同的厂商、不同业务系统，不同类型，不同通信协议的存储设备联系起来，将体系中各个设备映射成统一的资源池，并通过虚拟方式进行数据统一管理，它可以屏蔽用于数据的物理设备位置及其异构特性，降低了数据管理及维护的成本。分布式是在虚拟技术的基础上将分散的存储资源映射为虚拟设备，通过多台互联的存储服务器进行存储负荷的分担，同时通过位置服务器进行存储信息的定位，使用该技术可以提高系统的可扩展性以及存取效率，实现云存储数据归集体系中不同的应用，不同的存储设备以及不同的服务之间高效协同工作^[8]。

3.2 基于重复数据删除的数据备份技术

随着国家电网电力数据量的增加，数据中的冗余部分也在不断增多，从而导致更多的存储空间被占用，同时给数据备份工作带来巨大的压力。因此，重复数据的删除是非常必要的数据压缩技术，该技术基于删除运算逻辑以消除数据中冗余的字节、数据块或文件，从而保证系统中存储的只是单一的数据，减少数据归集体系所使用的存储空间，增加可用存储容量，增大数据传输过程中的有效数据成分。同时，考虑在原数据出错、误删等情况下的数据恢复问题，数据备份技术也是归集体系必不可少的部分，因此，经过重复数据删除技术也间接地减少了数据备份工作的存储量，解决了不必要的存储空间占用问题。

3.3 数据安全技术

用户数据的安全性始终是备受关注的问题。数据的安全性主要是指数据泄漏、数据丢失、数据篡改等问题，在存储架构中，通常数据距离用户越“近”越安全，但采用云存储的架构下，数据通常距离用户很“远”，因此有必要对数据采取安全保护措施。基于云存储的数据归集体系通过大量的网状客户端对系统中的操作行为进行异常监测，从而能够及时获取网络中的病毒、木马程序信息，并将其推送至服务器端进行处理，随后将病毒及木马的解决方法发送至所有客户端，使整个体系成为一个防御系统，从而保证了海量数据的安全。

4 基于云存储的数据归集体系的优势

4.1 存储资源利用率的提升

虚拟化是基于云存储的数据归集体系的特征之一，通过这种技术可以将国家电网电力公司闲置以及利用率低的资源进行抽象并呈现，改变了计算机网络实体结构不可切割的现状，从而获得更高的资源利用率，使这些资源不必受现有架构以及物理组态的限制，通过将利用率低的硬件重组，可以最大化地实现物理硬件的利用，最终达到提高整体资源利用率的目的^[9]。

4.2 系统整体运行效率的提高

基于云存储的数据归集体系在实现海量数据存储的同时也实现了应用存储。即在存储数据的同时还实现了应用功能的存储，该体系同时具备存储设备和服务器的功能，因此能够显著地减少存储服务器数据，并减少存储体系中由于服务器造成的性能瓶颈问题及单点故障，从而降低系统的成本，且减少了数据传输过程所经历的环节，实现了整个存储体系的高效率运行。

4.3 系统整体安全性的加强

基于云存储的数据归集体系所采取的安全技术在反病毒功能上较传统的病毒防范策略更具优势，由于采用大量客户端对网状的系统操作进行异常监测，该体系在反病毒技术竞争中往往能够占据先机，同时由于融合了并行处理以及网格计算等新技术，可以实现快速地异常自动分析及处理，并把解决方案运用到每一个客户端。原则上只要客户端足够多，就可以实现只要有新的木马或者病毒出现，就将被立即被获取到并进行处理，从而使整个存储体系的安全性能得到极大的加强^[10]。

4.4 系统可扩展性的开拓

相对于传统的存储体系通过某个策略的执行使各个节点获取所要执行的操作信息，基于云存储的数据归集体系采用松耦合非对称架构，利用数据路径外的元数据进行服务器的控制，这种集中控制的方式支持新层次的扩充，从而具备了以下优点：

（1）存储节点不需要接收来自网络节点的验证信息，从而将更多的资源用于提供读写服务。

（2）客户可以通过虚拟化应用实例或硬件性能实现云存储的快速调整。

（3）消除了节点之间由于共享大量状态而产生的开销以及用户网络互联的需要，进一步降低了存储体系的成本。

（4）通过具有集中控制功能的元数据，存储节点可以实现深层次的应用归档，实现资源的精细化管理。

5 结语

针对国家电网公司运监中心全量业务数据归集过程中所面临的数据量大、数据类型复杂、数据更新快等问题，本文提出了一种可适用于全量业务数据归集工作的存储体系，该体系克服了传统存储体系成本高、处理速度慢、扩展性能差的问题，很好地解决了全量业务海量数据的存储问题，同时该体系具有设备虚拟、数据安全、快速访问以及高运行效率等优势，因此能够很好地满足当下全量业务数据归集工作的需要，对于后期可能出现的新问题，由本系统具备的高可扩展性作为保障，最终实现为全量业务数据归集工作开展过程中的数据归集问题提供完备的解决方案。

参考文献

[1] WANG P, RAO L, LIU X, et al. Dynamic data center operations with demand-responsive electricity prices in smart grid[J]. IEEE Transactions on Smart Grid, 2012, 3(4): 1743-1754.

[2] BOICEA A , RADULESCU F, AGAPINL I. Mongo DB vs Oracle —— database comparison[C].Third International Conference on Emerging Intelligent Data and Web Technologies, September 19-21, 2012, Bucharest, Romania. New Jersey: IEEE Press, 2012: 330-335.

[3] 严霄凤, 张德馨. 大数据研究[J]. 计算机技术与发展, 2013, 23(4): 168-172.

[4] 乔琳, 许晖. 复杂企业决策支持环境下的数据仓库体系结构的演化[J]. 计算机工程与应用, 2000, 36(7): 98-100.

[5] 郝悍勇, 黄文思, 林燊, 等. 用户感知度模型分析及其在客户服务领域的应用[J]. 电力信息与通信技术, 2016, 14(1): 33-37.

[6] 国家电网公司. Q\GDW703-2012 国家电网公司公共信息模型(SG-CIM)[M]. 北京：中国电力出版社, 2012.

[7] LIU Y, WAN G Y, JIN Y. Research on the improvement of Mongo DB auto-shareing in cloud environment[C].International Conference on Computer Science & Education, November 12, 2012, Yogyakarta, Indonesia. New Jersey: IEEE Press, 2012: 851-854.

[8] HAN J W,PEI J,YIN Y W.Mining frequent patterns without candidate generation[J]. Data Mining and Knowledge Discovery, 2004, 8(1): 53-87.

[9] 陈毅波,陈乾,眭建新.基于大数据技术的电网运营分析决策系统研究[J].电力信息与通信技术,2015,13(8):128-131.

[10] 王忻.基于大数据技术的电力公司运营系统研究[J].商,2016(4):214-214.

作者信息:

梁霄，汤宁，张玮

（南瑞集团有限公司，江苏南京 211106）

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容