《电子技术应用》
您所在的位置:首页 > 通信与网络 > 设计应用 > 基于用电特征的多维度窃电识别技术
基于用电特征的多维度窃电识别技术
2018智能电网增刊
隋春明,张剑锋,杨文博,任彦伟
国网吉林省电力公司,吉林 长春 130000
摘要: 针对某地区电网存在的窃电用户较多的问题,基于用户用电特征构建数学分析模型,通过整合各类典型窃电案例数据特征,建立多维度的反窃电分析方法,精确定位出窃电嫌疑用户。实践表明,采用全方位多角度构建的窃电识别技术是科学有效的,对实际的窃电排查工作有很大的推动作用。
中图分类号: TM7
文献标识码: A
DOI:10.16157/j.issn.0258-7998.2018.S1.057
Abstract:
Key words :

0  引言

    反窃电工作是电网公司的重点工作之一,随着地区经济的持续增长,居民生活水平不断提升,电力需求增长的同时,窃电现象却越发严重,窃电的手段也多种多样,由以前的跨表用电向现在的高科技窃电演变,使得窃电排查工作更加困难。窃电问题严重影响了电网公司正常的供电秩序,严重危害了公共安全和社会稳定。因此提高窃电用户排查的准确性和覆盖面迫在眉睫[1-3]

    本项目基于用电信息采集系统和营销业务应用系统积累的海量用户用电信息,综合考虑各种窃电特征,建立用户窃电概率分析模型,通过机器学习算法分析手段,力求较为准确地定量分析出各用户的窃电嫌疑水平,以提高窃电嫌疑用户锁定精度。建立预警、排查和处理的闭环工作机制,加大反窃电的查处惩治力度,保障企业经营效益。

1  研究现状

    据了解,现阶段国内多个研究结构在反窃电研究领域有各自的特点,例如:研究的数据范围主要是以电压、电流、三相不平衡为主的高压用户窃电识别;以功率、负荷、台户关系等为出发点,研究发生窃电行为时的间接表现形式;以专家经验判断的比较粗糙的过滤规则等[4]

    这些研究方法都有很多的片面性,例如数据维度较少、只针对高压用户、分析方法比较简单等,在实际应用中并没有达到理想效果。虽然在某些情况下也能有一定的表现效果,但是如果推广到全量用户的窃电识别下,就会显得不太适用,即使使用了高精准度的模型算法,如果没有选择最合适的数据范围,仍然达不到理想的识别效果[5-6]

2  研究思路

    本文基于已有的数据挖掘在反窃电场景的研究成果,来实现全量数据、多维用户特征、高精度模型算法的窃电用户精确识别,并便于轻量部署应用,以支撑业务人员的反窃电工作[7]。改进方向主要体现在:

    (1)本次研究以某省全量用户的用户群体为分析目标,对各类型的用户有普遍的适用性,便于在后期的应用中快速推广部署。

    (2)数据范围以全量历史用电数据、用户基础特征信息数据及台区线损数据为主,构建特有的用电特征量,可以直接反映出发生窃电时的数据特点。

    (3)本次研究在多个前沿的机器学习模型基础上,进行了多重交叉验证与自适用优化策略,取得很高的精准度,可实现模型的自学习过程与智能优化。

    (4)建立了针对性的高维度特征工程,对特定的用户群体进行单独标记识别,可识别周期性用电与不规律用电。

    (5)研究成果可轻量部署在国网公司内部服务器上,操作简单易懂,可定期输出某地区的疑似窃电用户清单,供排查人员线下查访。

    一般发生窃电的情况下,最直接会体现在用电量的异常上。本文所研究内容,以全量用户的历史用电数据为中心,构建基于用户特征的用电量挖掘模型,从多个时间维度构建深度用电量特征量。

    从不同的窃电手段来看,对电表动手脚的窃电的行为会导致用户用电量减少,根据窃电方式不同和窃电严重程度很可能会出现用电量突降、电能示值逆向减少的异常现象,因此可利用电表日冻结电能示值及天、周、月不同时间周期的多种统计值判断用电趋势的异常走向和不规律用电;对于越表窃电的行为,窃电量大的会导致台区线损异常增大,可以根据台区线损的变化情况判断台区用户的嫌疑概率;同时电压等级、行业分类、用户分类、用电容量等用户特征也是区分窃电用户的重要特征,可以增强模型对各类别用户的区分功能。窃电识别流程如图1所示。

scm-t1.gif

3  数据处理

3.1  数据范围

    窃电行为发生后会直接体现在用电量的异常变化和线损的增高,所以本次研究选取某地区全量的用户数据,以用电户档案信息、电能表示数值的数据、台区线损数据及历史窃电记录数据为主要分析数据,如表1所示。

scm-b1.gif

3.2  计算特征统计量

    通过对基础数据的探索,确定选取用户电能示数表的部分数据为主要建模原始数据。其次,通过对历史窃电用户历史电能表走势的变化情况进行探索总结,并结合业务知识,以用电量数据的多种统计指标为依据,精准区分出用电量异常情况下数据的表现特征,用此特征量数据输入模型,可达到明显的效果。选定窃电用户与未知用户的电能示数数据进行以下处理:

    (1)计算汇总每个用户不同时间周期下的用电量数据;

    (2)计算每个用户相邻时间周期之间的差异变化;

    (3)计算线损率与当月度汇总用电量的相关性,并设定权重值;

    (4)对用户基础信息数据进行分类编码。

    对以上数据表进行多维度统计汇总,计算得出多种指标,分别代表各时间周期下用户每日的用电量和用电量差异的统计指标,包括均值、标准差、极差、50%分位区间、中位数、偏度、峰度及日用电量小于等于0的次数等。

4  模型算法

    利用数据处理得出的50个维度的特征变量,构建多种分类模型算法,经过多重交叉验证的对比筛选,选择表现效果最好的模型进行最终的分类预测。Adaboost算法属于集成学习算法,是Boosting 算法家族中代表算法,通过若干个弱分类器,整合为一个强分类器的方法来提高学习准确性,AdaBoost 算法就是将容易找到的识别率不高的弱分类算法提升为识别率很高的强分类算法。

4.1  建模过程

    经过加工后的特征量包括用电曲线特征和用户档案特征,例如用电量数据在不同时间段下的多种统计量、用户电压等级、行业类型等。AdaBoost算法通过对用户特征集的训练产生不同的分类器,每次迭代都通过计算误差率来改变样本权重,也就是提高分错样本权重,重点对分错样本进行训练,直到达到迭代次数或者损失函数小于某一阈值,如图2所示。

scm-t2.gif

    (1)初始化每个训练样例的权值,共M个训练样例。

    (2)共进行N轮学习,第n轮学习过程如下:

    ① 使用权值分布为Wn的训练样例学习得到基分类器Gn

    ② 计算上一步得到的基分类器的误差率;

    ③ 计算Gn前面的权重系数;

    ④ 更新训练样例的权重系数;

    ⑤ 重复步骤①~④,得到一系列的权重参数an和基分类器Gn

    (3)通过台区线损计算出线损修正系数,台区线损越高,其窃电嫌疑越高,得出最终用户窃电嫌疑概率。

4.2  模型结果

    模型结果如表2所示,列表中分别为电表编号、历史窃电记录标识、预测分类及各分类的概率。以窃电概率大于50%作为划分疑似窃电用户和正常用户的边界,实际应用中可以根据实际情况调高此分界值。

scm-b2.gif

    图3为对应的ROC曲线,曲线整体靠近左上角,其中,准确率为96%,召回率为93%,模型结果的准确率较好,召回率也较高,预测准确性较高。

scm-t3.gif

4.3  模型成效

    选取某地区全量用户进行窃电用户识别,识别出较多电表频繁归零、电表逆走、异常波动等情况,其中某用户电能示值曲线如图4所示,实地排查后找出部分用户确有真实窃电的行为,其余疑似窃电用户虽未找到窃电的证据,但是由于用户无法解释异常的用电曲线,也同样判定为重点监控目标。

scm-t4.gif

5  结束语

    本次研究是基于用户全量特征,针对全量用户做的分析,对各类型的用电户有普遍适用性,适合开展大面积的排查工作。模型可以进行轻量部署,定期支持常规用电检查和专项反窃电活动。

    基于反窃电模型的成果,可以进一步开展研究工作。例如结合扩报装新用户的用户画像和用电负荷模拟情况,将用户实际用电量和预测用电量比对,提前预测用户的用电行为;也可以结合智能电表的实时采集信息进行实时监控,在发现异常的第一时间及时报警;也可以将反窃电的成果和台区线损治理、营配调贯通治理的工作结合起来,相互配合,通过数据治理的成果提升数据的可靠性。

参考文献

[1] 建峰,葛健.基于用电行为的反窃电智能分析系统[J].电力设备,2016(23).

[2] 林志坚, 姚伟智, 黄朝凯, 等. 基于用电行为分析的反窃电在线监测及智能诊断系统研究[J]. 新技术新工艺, 2015(5): 137-140.

[3] 周文婷, 顾楠, 王涛, 等. 基于数据挖掘算法的用户窃电嫌疑分析[J]. 河南科学, 2015, 33(10): 1767-1772.

[4] 于光辉,耿桂森.基于用电信息采集系统的防窃电措施[J].山东电力技术,2014, 41(3): 49-51.

[5] 陈鹏飞. 基于用电信息采集系统的窃电在线稽查装置的开发应用[D].北京:华北电力大学,2013.

[6] 张瑞. 基于用电信息数据挖掘的智能反窃电研究与应用[J]. 价值工程, 2016, 35(35): 51-54.

[7] 柴鹏飞,陈国栋.数据分析在反窃电中的应用[J].河南电力技术, 2013(2): 61-64.



作者信息:

隋春明,张剑锋,杨文博,任彦伟

(国网吉林省电力公司,吉林 长春 130000)

此内容为AET网站原创,未经授权禁止转载。