数据质量峰会嘉宾刘贺

刘贺

嘉宾介绍:
• 国家电网全球能源互联网研究院数据治理专家,主要从事电力大数据治理、数据质量管理、数据分析应用及隐私保护等领域的研究及开发工作,发表高水平学术论文10余篇;
• 作为骨干人员承担了国家863计划、国家能源局“互联网”+智慧能源示范项目等多项国家级科技课题,并承担了国网公司“用电类运营大数据质量评估及改进关键技术研究”、“公司重点领域大数据应用技术与模型研究”等多项科技项目工作;
• 获得国网信通部行动计划优秀成果一等奖2次,国网青创赛银奖1次,国网企协创新管理特等奖1次。

峰会演讲目录:
• 电网与大数据
• 大数据质量提升思考
• 大数据治理典型应用
• 展望

电网大数据治理应用

本文根据刘贺先生在【DQMIS2018第二届数据质量管理国际峰会】现场演讲内容整理而成。

数据质量管理国际峰会演讲嘉宾刘贺

  各位专家、各位领导大家下午好,下面我介绍一下我们在电网大数据应用方面的工作情况,主要侧重于数据质量方面。

电网与大数据

  近年来,国家已经提出了很多国家级的战略,如互联网+行动计划、大数据战略、网络强国等,意在强调依托通信技术促进与传统产业的整合,推动生产方式的变革和商业模式的创新。国家电网也是非常重视信息通信技术的发展,利用信息通信技术使电网更加智能,能够识别各种故障,能够适应各种分布式清洁能源的接入,满足用户多样化、智能化用电需求,促进智能家居、智能城市的发展。

数据质量管理国际峰会演讲嘉宾刘贺演讲内容

  大数据在电网是非常重要的,规模特征就是我们经常提到的数量大、类型多、价值广,覆盖发、输、配、调、用等各个环节。电力大数据能够反映电网运行情况,也能反映用户的用电特点,还能反映国民经济的运行情况,在电网生产、经营管理、客户服务上多个领域得到了广泛的应用。目前,公司建设了为生产运行的企业级大数据平台,同时也建成了大数据开发试验和共享服务平台。其中,开放试验和共享服务平台是依托研究院自主研发的开放共享平台,为电网大数据科研探索提供相应的工具支撑、应用支撑,也为不同的应用度提供不同的技术支持、产品服务、仿真验证的环境,助力电力大数据研发和应用探索。

数据质量管理国际峰会演讲嘉宾刘贺演讲内容

  除了平台,公司研究了很多大数据方面的应用,我们这里对生产应用进行了简单的归纳,可以看到覆盖到输电智能化、智能调度、信息通信等各个方面。数据是大数据应用的基础,随着公司信息化发展进入深水区,大数据应用也面临着新的挑战,主要体现在以下方面:第一是数据治理问题突出;第二是智能工具缺失;第三是高性能计算支撑是非常关键的;第四在非结构化应用上也是提出了新的挑战。

大数据质量提升思考

  这里我们分享一下我们在数据治理这方面的工作经验,主要体现在数据质量部分。数据治理是从管理和技术方面相结合的角度对数据进行管理,这也是行业的共识,包括组织架构、政策制度、技术工具、数据标准、作业流程、监督及考核方面,数据治理的功能包括数据标准、元数据管理、主数据管理、数据质量、数据安全,这里更加注重数据质量方面。

  电网里面从物理层、管理层、分析层每一层都会对应很多的业务系统,每一个业务系统都会产生相应的数据,是属于三角对立关系。从上往下,数据的复杂性、关联性、应用性会越来越高,在这个过程中就会产生很多相应的数据质量问题,例如在控制层主要体现在采集数据的不完整和数据之间缺少必要的关联。

  结合前面提到的问题,我们提出了大质量提升的思路--从源数据到剖析评估到形成高可用数据集:在源系统主要是人财物,人资、物资,根据业务数据质量需求,进行数据剖析探查;针对分析出来的问题配置清洗规则及算法,形成高可靠数据集,为后续的生产经营、经营管理和应用服务提供相应的支撑。

  检核评估的核心数据质量维度和约束规则,在这方面,我们制定并发布了企业标准电网运营大数据质量评估通用规则,涵盖数据质量维度及约束规则,持续推进公司在数据质量标准上产业化工作。其中,在每一个维度下面都会有相应的约束规则对它进行定义,各个业务部门在进行具体实施的时候选择一个或者是多个维度和约束规则进行数据质量评估工作。 为了使数据预测的结果更加准确,避免造成决策的错误,数据实践者必须确定要采取的合适行动进行数据清洗改进。数据清洗存在于数据采集、存储、集成、分析应用的各个阶段,我们采用专门的数据清洗工具对数据质量问题予以纠正,该工具能够集成多源异构数据源,在大数据环境下实时批量数据清理和匹配,清洗任务也可以手动或者是自动让它调度执行,更多的是我们这边内嵌了一些清洗模型能够直接应用。

数据质量管理国际峰会演讲嘉宾刘贺演讲内容

大数据治理典型应用

  以上是我们大数据方面的思考,在大数据治理方面我们还做了典型应用工作。

  (1)数据中心数据仓库模型遵从度巡检,公司遵循IEC国际标准及规范,结合电网生产、营销、企业经营管理等实际业务形成覆盖各业务领域的电网企业业务模型的数据模型。我们依托所设计模型对省市电力公司的部分数据仓库模型遵从度进行巡检,分析模型不一致的情况,让数据仓库模型的业务逻辑和业务结构进行持续的优化。

  (2)运检大数据应用方面,采用机器学习、数据挖掘等大数据前沿技术,梳理主变压器的属性、故障、运行情况,从多层次、多角度、多方位进行评价,针对异常和严重问题我们会进行维修,对不同的信息设置相应的指标,每个指标下面都会给出一个具体的量化值,用以反映主变压器的健康状态。

  (3)运检管控平台支撑工作,主要是为了全面提升智能的运检和检修,对变压器的数据质量问题进行诊断和评估,把不完整、评价不规范的情况梳理上来,设计相应的指标,进行规范化模板设计,并进行清洗工作。

展望

  数据治理是一门管理和技术的艺术,管理是手段,技术是承载。随着电网大数据开放共享的推进和新型技术的快速发展,尤其是外界对我们需求的提升以及内部各个业务部门之间数据贯通的需求,数据治理也面临诸多挑战,在下一阶段我们也会继续推进大数据治理工作:第一个是精细化电网大数据开放共享治理机制;第二个就是技术解决方案与业务需求的深层次结合;第三个人工智能关键技术的融合应用。谢谢。