数据质量峰会嘉宾车春雷

车春雷

嘉宾介绍:
• 中国建设银行总行数据管理部数据集成管理处处长
• 在数据仓库与商业智能、数据标准、数据质量、数据建模等领域有近20年工作经历,具备扎实的理论基础,积累了丰富数据治理和管理经验。近30年信息技术和数据管理领域的从业经验,先后从事于工业自动化、银行交易软件开发、大型银行网络设计和维护、商业智能与企业级数据仓库、数据标准、数据质量、数据建模等方面的工作。
• 参与编写银监会《中国银行业十二五数据治理规划研究报告》(2010年);参与翻译《DAMA数据管理知识体系指南》(清华大学出版社,2012),负责”主数据和参考数据管理”一章翻译和数据质量管理“一章审校;参与编写《大数据治理与服务》(上海科学技术出版社,2016),负责“大数据质量管理”一章;参与国家大数据标准《GB/T36073—2018数据能力成熟度评价模型》制定;参与的信息化项目、研究成果多次获得建行、人民银行金融科技进步奖;在 “中国首届(2016年)数据标准化及治理奖”评选中被评为数据治理专家。

峰会演讲目录:
• 建行数据管理历程及曾经面临数据质量问题
• 数据质量改进方法探索
• 心得体会

嘉宾演讲稿一键下载

商业银行数据质量管理实践

本文根据车春雷先生在【DQMIS2018第二届数据质量管理国际峰会】现场演讲内容整理而成。

数据质量管理国际峰会演讲嘉宾车春雷

  非常感谢组委会给我们这么一个机会,谈一下像我们建行这样的企业在数据质量管理方面的工作分享。上午圆桌会议,我说过银行对数据的监管有自己的需要。接下来我就把我们建行在这十几年做数据管理过程中的体会,给大家简单的介绍一下。

建行数据管理历程及曾经面临数据质量问题

数据质量管理国际峰会演讲嘉宾车春雷演讲内容

  从这张图上可以看到我们建设银行在做数据管理方面我们走过哪些历程,从2003年,因为在我们建设银行中2003年就组织了一个团队,专业从事数据质量、数据管理方面的工作,在总行有一个管理部门,跟业务部门是一级部,专门有两个团队来负责做数据,来关注数据,2003年是建行做数据管理的元年,此后分为四个阶段,2003年至2006年这个阶段我们认为是思考数据、谈论数据的阶段,这个阶段我们做了一个标准,来构建我们企业的数据仓库。

  到第二个阶段打基础,这个时候我们在做数据管理时,数据仓库应用支持的更多,做数据关联不光是我们部门在做,还和我们的业务紧密结合在一起,去和我们的风险管理结合在一起,提高我们数据的质量就在这个阶段开始。

  第三个阶段,最近这几年了解建行的都知道建行做了一个很大的工程,2011年至2016年,建行二级的架构,信息系统的架构重构了,把我们以前做的数据管理里面做的探索、实践全部在这里面做了部署,体系化,端对端的把我们的数据做到这里面来。第二个把数据的共享完全建立起来,打破了条线之间、部门、机构之间的壁垒。

  第四阶段就是现在,2016年到目前为止,我们的数据管理完全纳入到我们的日常工作中里去,从总行到分行,我们现在谈的工作都是用数据来谈工作,这个阶段我们洞察数据价值的创造。

数据质量改进方法探索

数据质量管理国际峰会演讲嘉宾车春雷演讲内容

  2003年我们做数据仓库,就对建行的数据仓库做一个分析,2003年我们建行只是完成了数据,主要的数据全往总行集中,一级分行核心业务已经没有数据了,把这个事情做完以后怎么做管理、怎么做应用?当时分析了12个系统的数据,分析完以后,发现不完整、不准确、不及时、不一致都是存在的,这些数据也是关联在一起,我们在这样的困境情况下来构建我们的企业级数据仓库,在构建数据仓库的时候,前面有很多专家都讲过怎么提高数据仓库里面的数据质量。我怎么找数据,怎么修改,就像一个救火队,发生火灾我赶紧救火。

  2015年做我们数据仓库的时候,我们也是这么做的,最开始是给分行下的文件就改了,改这个文件的目的就是担任救火队的任务,给了三个月上线,过了一段时间又有一些问题出现,当时负责数据的人在想,有没有一个方法解决这个问题,质量这个词,质量管理来自于我们的制造业,今天上午讲的制造论坛,质量来自于制造业,质量的管理很多东西在于70年代、60年代来自于日本,是美国的专家帮助日本,质量管理是来自于制造业,我们找制造业,探讨质量管理做的是什么,怎么做,分舵的方法,先理论看这些事情。任何一个制造业,它在做产品的时候,不希望它的维修部门是最大的,不是等我的质量有问题来找维修部门,而是怎么能找到一套方法论,来找出找导致质量产生的根本原因,从根源解决问题。在制造业它是有这么一个方法论,在这个期间我们也研究了很多,找了很多资料,全面数据质量管理,数据信息质量管理等。我们有一个合作伙伴,用六西格玛方法来做的,引导着我们做数据管理,我们发现了问题,但是我们一定要找到根本问题在哪儿,我从根源去解决,我要预防它,我要在前面堵住它。

  到了2007-2008年,开始思考我们怎么去做,数据采集指南,数据采集规范,平时我们做培训诠释功能怎么用,这个数据怎么来采集,我们开始做的这个事情,这个问题的原因在哪里,我们怎么做。

数据质量管理国际峰会演讲嘉宾车春雷演讲内容

  我们在体系化这个阶段,我们企业的架构进行变化,看了企业架构理论,引进了数据模型的体系,把我们整个数据关联分成了五个层级,第二个业务术语,把每一个标准的每一个词汇的含义确立下来。第三个,我们做了企业级的逻辑模型,大家前面谈的企业级的模型,把企业级的任何一个术语,通过业务术语定义以后,把它的技术和数据之间的关系全部定义下来,形成了我们企业数据的标准,这个标准是用模型来承载的,后面做的就是业务系统的模型。

  做了企业级的数据,把业务规则全在内容里面进行描述,我们的模型现在接近五千个实体,4900多个,实体里面还有我们的类型、实力、代码,有接近七千个代码,把这些信息都在我们的模型里进行了承载,这就可以看到,对我们每一个属性有定义,我们对属性的内容格式,取值是什么,全在我们的模型承载下面,七八千个属性,实际上全部都给定了标准,我们定完标准以后,就要把它执行下去,怎么执行的?

数据质量管理国际峰会演讲嘉宾车春雷演讲内容

  做完企业级的数据模型,我们的实体是和我们的业务流程进行对接的,对接以后我们是要确定我们中间的每一个实体,每一个数据它在我们的哪一个业务系统里,在我们的系统里这个数据只有在这个系统里进行存储,我们有做这个过程,这个过程在设计所有的数据时必须严格执行我们C模型企业级模型制定的规范,这个时候大家就在想,做这个规范不可能做的那么全,我们就有一套机制,项目在做这个模型的时候,分析业务的时候,根据我们的业务不全,必须得到我的现行团队维护进行注册申请,审核才能用,不审核是不能用的。

  谈到数据质量,我们在引用模型的时候,必须遵循我们的规范,相互之间做校验,这样保证进到系统的数据是有效的,系统保证不了准确,但是它保证了有效,在设计阶段从数据的质量出发,这是一点。同时我们还做了一个系统,后面企业级的数据仓库,在企业级的数据仓库做了企业级的数据质量检测,目前的企业级数据仓库类似于虚拟的大环境,所有的银行数据都在这里,最原始的数据都在这里,我们是一个虚拟的环境,在这个逻辑环境里我们有一个质量检测平台,相互看他们数据的时候,就可以检测出它的状况,一个是前面设计。一个是后续检测,这是我们的一个体系。

  经过这十几年的探索,我们把建行做数据管理、活动任务已经规划好了,分七个活动,这七个活动从我们质量规则去定义,它的质量是什么,在过程中,在系统中,监测,分析,改进,把这些任务给它规范好,这样通过实际在做的工作过程中可以有效的结合这些环节改进我们的活动。

数据质量管理国际峰会演讲嘉宾车春雷演讲内容

  现在谈数据质量的时候,有的系统都构建了十几年,十几年用的很好,这个系统在构建的时候,这个条线,数据在用的时候是没问题的,什么时候有问题?是你的数据做共享,别人用你的数据出问题了,我们现在做数据说到质量也知道,什么叫质量?满足用户的需求叫做质量。把数据的共享打好,促进数据的共享应用,现在我们整个企业构建了这么一个共享的环境,在这个环境里一方面我们有企业级的数据仓库,刚才谈到了数据质量平台,我们有一个元数据平台,目前对这个环境是用数据,元数据平台是非常关键的,后面我们构建了相应的应用,后面有四十多个集市,同时还建立了一个专业集市,还有公共用的系统,我们在这里做的比较好的是企业级的平台,通过这个平台可以访问我们企业级数据里的所有数据,我们经过分析,把它的一些功能部署在这个平台上,一半都是在企业里面,最基本的应用是报表,在这里我们必须把常规的报表做到这里,目的生成好的,前面都是做报表这一类的,现在随着员工计算机系统的提高,都想自己动手做数据,不是要数据,现在做了报备工具,可以自动拖拉拽它的数据,这是一点。第二个,还有可视化的数据挖掘实验室的环境在这里面。

  建行构建了这么一个应用环境以后,让大家都能用数据,在这里一般情况下是打破条线隔离的,只要你有权限,你都可以看到,不希望你去找对公条线授权,构建数据的应用来促进我们质量的提升。

  原来我在做数据质量,怎么把这个数据工作做上去,把数据质量的工作纳入到日常的工作里面,把这些职责落实到应用部门去呢,平时看资料的时候,数据专员、数据管家等等很多的名词,我们用这些名词的时候,我们原来和业务部门打交道的时候很难,你这个部门派一个数据专员吧,他说你这个不是数据专员吗,很难把这个职责推下去,我们就用了现在这些词,数据的采集部门、录入部门,大家都理解了,运输就可以实施,通过这些语言,把我们的职责日常工作给它转换里面去,通过这几个步骤,在建行我们就把工作用、管、治结合在一起,发现问题,治问题,把根本的问题解决掉以后纳入到数据管理过程中的日常工作,在日常的工作中都给它做好了,一个良性的生态链,通过应用来促进大家来做这个工作。

  现在都在谈互联网企业,都在谈开发,现在都在谈敏捷开发,要快。还有一点,大家现在谈做数据质量、数据治理,我做这个事情怎么让我的领导看到价值,我做的都是冰下面的东西,我们前面谈的是做数据质量,我们要把我们的工作放小,小步快跑,通过小步一步一步的往前走,你做的项目小,一定跟业务相结合在一起,做数据质量的改进,那就可以看到数据展示的报表,逐渐数据质量就可以上去了,现在敏捷开发都是迭代,我们有时候在想,一步走到底,都想一步走上去,你走着走着,雷声大雨点小,这样通过迭代循环式企业的质量就逐步提升上去,这一点我们也是十多年逐步摸索出来的。

心得体会

数据质量管理国际峰会演讲嘉宾车春雷演讲内容

  我们做数据质量不是改,而是怎么防,找到这个数据质量的源头,分析哪个环节最合适,在关键的环节做好以后,让后面很多的环节都受用,第二个方面是质量管理,这个工作80-90%都是在IT的,我们要参与到数据管理中去,不要当数据出现问题就说是业务部门的问题,责任是推脱不掉的。当出现问题是应该有所担当。数据管理一定跟应用结合在一起的,为什么企业做数据仓库、数据治理,因为他没有引用来判断这个数据是不是他所要求的。

  数据质量是工作,是永远在路上的。