大数据技术在潜在电费风险挖掘中的应用.docx
大数据技术在潜在电费风险挖掘中的应用随着中国市场经济的发展和电力市场化改革的推进,供电企业的发展面临着新的机遇与 挑战。但长期以来,电费风险管控一直是供电企业管理的重要环节。近年来大数据技术迅猛 发展,在电商、金融等行业取得了巨大成效。国家电网公司十三五规划目标,广泛应用“大 云物移”技术,推动公司管理变革和运营模式创新,推动电网创新发展高效运作。本文基于 大数据技术对电费风险展开分析,对数据来源进行了梳理,并探讨了大数据的采集、存储、 处理及分析展示的技术。通过应用场景分析直观展现电费回收情况,发现电费风险问题。 0前言随着电力市场化的不断深入发展,科学技术的不断进步,新的电力信息化管理技术逐步 成为提升供电企业有效管理的一种重要手段,电费风险预警管理是电费安全管理的重要环 节。加快电费风险管控系统建设,实现电费信息准确畅通、全面及时传递,已成为规避经营 风险、提升财务管控水平、提高经营效益的迫切要求。国家电网公司十三五规划目标,广泛 应用“大云物移”技术,推动公司管理变革和运营模式创新,推动电网创新发展高效运作。 随着智能电网的深入发展,电力大数据已经成为学术研究和企业发展所关注的热点领域,国 内外大学、研究机构、IT企业、电力公司均已开展了相关方面的研究应用。随着社会经济的蓬勃发展,工业居民用电量不断增长,传统的电费管理模式已经不能适 应当前市场需求,电费风险管控体系的建设势在必行。电费信息具有分散性、时效性及多样 性等特点,我们只有建立高效运行的电费风险控制自动化体系,实时监控电费业务情况,控 制各个环节流程,才能有效的帮助企业规避电费风险。目前公司精细化管理需要对电费情况 进行实时监控,及时发现存在的风险点,调整降低风险,提升企业收益。当前主要采取人工 从系统导出数据,工作量大,工作效率低下,并且由于传统系统数据最庞大,经常出现无法 导出数据等问题,给日常工作带来很大不便。1电费风险数据来源电费作为电力公司收益的直观数据,体现了公司经营管理的成果。如何有效地降低电费 风险,提升电费回收率,成为当前公司经营管理工作的重点。电费风险来源于电费回收情况, 电费回收由发行电费、实收电费、预收电费、欠费电费等几部分组成,日常工作中实收电费 由预收结转、欠费缴费等几类业务情况产生,流转较为复杂,因此,此次主要从发行电费、 预收电费和欠费电费3个方面入手进行分析。1.1 用户信息用户分为考核用户、高压用户、低压非居民用户和低压居民四大类。此次主要针对存在 电费回收风险较大的用户进行分析,低压居民用户大多为预付费,且管理比较系统化,风险 相对较低,此次暂不分析,主要分析剩下的三大类用户。1.2 电费信息电费风险主要通过电费回收情况分析呈现,电费回收主要从发行电费、预收电费和欠费 电费几方面体现,所以需要提供用户每月产生的发行电费、预收以及欠费电费数据信息。 1.3供电单位通过分析不同供电单位的电费回收情况,对比各单位的电费回收风险,说明发现供电单 位对电费回收风险有一定影响,可以有效借鉴较好的工作经验,制定整改办法,降低供电单 位的电费回收风险。1.4 行业类别通过分析用户在不同行业下的电费回收情况,说明不同行业对电费回收风险的影响程 度,一定程度上反映了用户行业管理上的不足之处,从而强化管控,降低电费风险,提升电 费回收率。1.5 电压等级通过对不同电压等级用户的电费情况分析,发现不同电压等级用户的回收情况有差异, 说明电压等级对电费风险有影响。可以从电压负荷、容量、稳定性等各方面分析发现问题, 降低电费风险.2电费风险关键技术Hadoop是一个由Apache基金会所开发的分布式系统基础架构,Hadoop实现了一个分 布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并 且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐豉(high throughput)来访 问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。该平台基于Hadoop架构搭建实现,沿用国网大数据平台的数据仓库工具Hive。图1为 平台技术架构。数据分析数据分析数据挖掘算法(描述性分析、预测性分析、深度数据分析等)结果展示及解读结果展示及解读可视化展示、结果解读数据整合关系型数据 库数据抽取实时数 据采集文件数 据采集数据库实 时复制图1电费风险平台技术架构数据存储数据集市数据仓库2.1 数据采集系统采用Kafka. Sqoop两种技术来实现电费、用户以及所需信息的数据采集整合,为 业务场景分析提供数据支撑。Kafka是一种高吞吐量的分布式发布订阅消息系统。它的目的是通过Hadoop的并行加 载机制来统一线上和离线的消息处理,也是为了通过集群机来提供实时的消费。因此,通过 Kafka技术实现应收电费及欠费电费数据的实时采集。Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具。它类似于其他 ETL工具,使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安 全的数据处理。Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处 理每个区块。因此,通过Sqoop技术实现用户、预收电费等信息的离线数据采集整合。 2.2数据存储数据存储使用数据仓库Hive和Postgresql数据库联合实现。发挥各自优势,为场景分析 提供数据保障。Hive用来存放数据采集的第一手数据,将采集到的源端数据存储至HDFS文件系统中。Postgresql作为数据集,用来存放从数据仓库Hive中抽取到的数据,并且按照国网CIM 模型的标准域存储,用来存放业务场景分析所需的数据。它通过Kettle技术实现完成。2.3数据计算及分析数据计算采用Spark技术来满足业务场景实时分析的需求。Spark是UC Berkeley AMP lab 所开源的类Hadoop MapReduce的通用并行框架,Spark能更好地适用于数据挖掘与机器学 习等需要迭代的MapReduce的算法,适用于需要多次操作特定数据集的应用场合。算法上,此次分析主要使用聚类算法,按照需求将不明确的数据实现分门别类,辅助口 常监测工作。采用具有代表性的K-means算法,它是很典型的基于距离的聚类算法,采用距 离作为相似性的评价指标。通过使用聚类等算法,对业务进行深入挖掘分析,最终以玫瑰图、热力图、雷达图等专 业分析图形展示,配备一定的表格展示数据,使分析结果显得更加直观。3应用场景分析应用场景从系统采集数据,经由噪声处理、分析挖掘最终实现展现。潜在电费风险挖掘 的关键技术包括噪声数据处理、业务数据分析、基于距离计算的聚类分析。噪声数据处理和 业务数据分析是按照业务需求,对数据进行初步筛选处理的过程,实现数据挖掘计算;聚类 分析是根据欧式距离公式及误差平方和准则实现聚类中心点选择与分类,实现对未知分类数 据的类别划分,主要应用于供电单位间、行业间以及电压等级间的电费问收情况对比分类, 划分为较好、般和较差3类。针对较差类别的情况进行深入分析,发现管控薄弱环节,进 行整改完善。应用场景围绕电费回收情况开展,包括发行电费、预收电费和欠费电费3类,根据业务 主题划分电费回收整体情况分析、预收电费分析和欠费电费分析,其中电费回收情况中包含 发行电费、预收电费和欠费电费3类电费的数据信息。此次分析以日为单位实时监控,以月 为单位分析电费回收情况,可监控分析每口的电费回收情况,对应分析当月1 口截止到监控 日的电费回收走势情况,通过供电单位、行业、电压等级多维度分析电费回收情况,发现回 收情况弱点,从业务侧深入分析发现风险点,制定整改措施,降低风险,达到提升效益的目 的。4结语未来的电费风险依托于大数据技术实现实时监控,通过分析电费回收情况,进一步深化、 挖掘潜在的风险,为电网经营管理提供实时多样化的数据,为公司的精益化管理提供支撑, 从而提升企业经济效益。