星环合作国网公司:建设电力大数据实验平台
项目背景
国内外高度关注大数据技术发展,大数据已上升为我国的国家战略。随着智能电网的深化建设,电力系统生产、运行、销售、管理等过程产生出大量数据,迫切需要利用大数据技术,高效挖掘多源异构电力数据,深度发现电数据价值,提升电网发展运营水平,提高对社会经济的服务水平。基于这样的情况,国家电网上海市电力公司筹备建设电力大数据实验平台。
问题与需求
1、数据的统一储存
在电力系统不断的生产、运行、管理过程中,会产生非常大量的数据,每年都有30%的增长。这些数据包含结构化数据,非结构化数据。传统的结构化数据有26.7T,而图形数据、音频数据、以及文档数据合计有300T之多。如何将不同类型的数据统一存储,是非常大的挑战。
2、深度挖掘电力数据价值
国网公司希望建设电力大数据的数据仓库和数据集市,提供电力大数据应用模拟环境,提供电力大数据应用集成方案。
解决方案
选用目前主流的分布式技术,面向电力应用研发了大数据基础平台。拥有Inceptor SQL引擎,支持完整的SQL语法,可降低应用开发难度;拥有Hyperbase列式数据库,通过多种索引技术的组合使用,可实现范围查询、模糊查询等高速反馈;支持聚类、回归等通用算法和机器学习算法的调用,以及面向电力应用算法的自定义开发;支持流式数据的实时处理;可对数据进行行列安全控制,安全管理体系做到和Oracle一致。
实施效果
1、数据模型和信息模型
利用大数据应用平台的工作流和数据流管理,实现数据从数据缓存区到原始库,通过数据清洗、修正后转存至中间库,根据用户行为分析和用电预测场景算法分析、计算后,将最终数据存储至Hbase分析结果库,提供示范应用可视化展示。共根据业务场景建成结果数据模型一百八十多张。实现数据从数据缓存区到原始库。通过建立基础数据模型,如用户台账、台区台账、日冻结电量等,为上层数据分析提供数据支撑,最终建立可视化信息模型,使可视化得以高效的展示和交互 。
2、数据交换及共享机制实现
完成了上海浦东新区电网数据、用户数据和社会环境经济数据等多源异构数据的接入,结构化数据按oracle格式存储至缓存区,非结构化数据如地理拓扑信息,按xml/svg文件格式存储。接入了9个业务数据源包括电力系统内部数据源和外部气象信息和社会经济数据(能量管理系统、配电自动化系统、电能质量监测系统、生产管理系统、用电信息采集系统、负荷控制系统、营销应用系统、气象信息系统和上海社会经济数据),其中包括了结构化、半结构化数据,接入用户数达到千万。
3、数据检索性能提升
为智能配用电大数据系统提供多种高性能的存储方式并,实现了对数据的高速查询和检索,分别采用了Search、Hbase、Holodesk等数据存储技术进行实现,结合并发查询,结果缓存等实现技术,将最终信息检索速度提升到1秒以内。