大咖观点

  • 首页
  • >
  • 大咖观点
  • >
  • “以评促质、以评提质”,关于数据质量评估的思考与探索

“以评促质、以评提质”,关于数据质量评估的思考与探索

图1.1 中国电子信息发展研究院中国评测副主任-吴志刚

演讲嘉宾介绍 - 吴志刚

中国电子信息产业发展研究院中国评测副主任、全国审计信息化标准化技术委员会副主任委员,曾担任国家电子政务标准化总体组秘书长、全国信息安全标准化技术委员会副秘书长;
吴主任长期从事信息技术、信息处理产品标准符合性检测技术、信息安全、电子数据交换、电子商务及电子政务相关标准的研究,并先后参与多项文献及标准化文件的起草及编写工作,包括《“三金工程”标准化指南》、《首都信息化标准化指南》、《中国电子商务年鉴》、《国家电子政务标准化指南》等文献的编写,《贵州省政务信息系统整合共享工作方案》(黔府办发﹝2017)58号)、《贵州省政府数据资产管理登记暂行办法》、《贵州省“一云一网一平台”建设工作方案》等文件编写工作,以及《政务信息资源目录体系与交换体系》系列(GB/T18391)国家标准起草。

演讲目录

以评促治,提质
主要评估模型
数据治理相关探索

我今天跟大家分享主题概括为三个字,一个是评字,一个是治字,还有一个是质字。围绕数据质量这个主题来谈: 以评促治,提质、主要评估模型、数据治理相关探索;
我们现在处在信息大爆发时代,各种各类信息处理设备每天产生大量数据。每天每时每刻,我们都在创造数据,实际上我们生活在一个数据海洋时代。大家天天都在和数据打交道,刚才孙主任谈到我们已经进入到一个以数据为驱动的新的数字经济时代。身处这个挑战和机遇并存的时代,如何做好数据这个大文章,是我们在座各位共同面临的新课题。

在疯狂的大数据爆炸的数据时代,我们如何拥抱这样一个时代?在回答这个问题之前,我们先回顾一下整个信息化发展演进过程。原有的数据治理,相对比较容易,因为从世界上第一台计算机出现开始,到80年代,我们数据是被特有的机构所拥有,是大型的机构来做,主要用于国防、气象、科技探索。数据治理相对简单,因为数据本身仅仅在这些机构里面使用。

图1.2

进入到信息化1.0时代,我们称之为信息时代或IT时代。是以单机应用为主要特征的数字化时代,这个时代的特征以办公自动化取代纯手工处理的过程。主要做纸质信息电子化和业务处理相关内容。进入网络时代过程中,以互联网应用为主,加快了数据传播速度,数据的增长量显著提升,数据多样性凸显,为我们真正的数据治理带来了困难和挑战。

近代我们进入大数据时代(即DT时代)。我们面临主要的问题,是数据多样性、数据流动性更为突出,依托数据进行科学决策更为重要。数据质量问题日趋关键和重要。比如这次波音事件,数据采集问题、算法问题导致了数据决策出现失误。该事件中突出表现为“数据质量成为高质量发展过程的一个瓶颈“。

在数据时代,数据是什么?有人形容数据是石油,我认为数据不是石油,而是像水一样的资源。石油是会枯竭,而数据是天天都在创造,尤其进入到物联网时代,万物互联过程当中,每人每天都在创造数据。数据时代,数据已成为促进社会发展的新要素、新动能。实际上在信息时代,我们用数据来描述现实;在网络时代,数据改变了现实;在我们进入的数据时代,实际上是数据驱动现实。在网络空间过程当中,数据已经成为第五大空间一个重要的描述方式,如何有效管好数据、治理好数据?这是我们今天这个大会主要谈论到的大话题。

图1.3

我们来看大数据时代过程当中,数据已经成为越来越重要的战略资源,从基础的设施建立,到算法应用的攻关,再到应用的实施。今天已进入到一个以围绕数据的管控、数据的安全保障等等为特征的多维复杂的新模式中。数据管理、数据安全、隐私保护、数据共享以及开发利用等等这些问题,都是我们必须面对的问题。问题的多维复杂性,决定我们急需构建一个综合的数据治理体系,而不是单纯管理体系,需要构建一个多维共治的协作模式。

接下来,跟大家探讨一下一字之差带来的区别,什么是治理?什么是管理?在整个组织乃至社会运转过程中,治理更是一种顶层的设计,是决策层面的综合把控。治理重点解决数据管理的道路、决策部署问题以及机构的设置以及决定采用什么样的策略、找到什么样的合适人员、采取什么样的模式去做正确的事情。而管理则注重如何将这些治理规则、战略决策具体的、不走样的有效贯彻实施,保证每一个步骤有效实现,多方遵守规则。因为大数据治理过程当中是一个多元参与过程,靠一家解决不了,所以这个过程当中要形成一套有效的规则,大家一起遵守实施,管理过程就是保证这些规章制度得到有效的落实。

图1.4

数据管理模型中,数据治理作为统领11个数据管理功能域的纽带,是一个核心,将各个方面有机的串联起来。治理处于核心地位,有效协调和把控各个数据管理功能域的工作有效推进。在机构数据管理过程中,管理分为诸多功能域,治理是数据管理功能域之一,但处于核心位置,是指挥中枢,起统领各个功能域的作用,能有效指导数据管理各功能域推进各项工作。数据质量在数据管理模型中也是最重要一环,只有把这些所有的问题都有机处理好,才能够推动数据的高质量发展。不能只关注某个方面或某个环节,而要把各方面有机串联起来,只有通过构建一套治理体系才能把各方面有机的衔接起来。

保证数据质量是实现各业务融合的关键,也是释放数据资源价值的关键。我们已经到了一个量变到质变的阶段,推动数据质量持续提升,促进高质量数据不断丰富,通过提升数据质量来提高经济的韧性和发展。当前数据质量面临着严重的问题,70%以上的数据完备性不足,各部门没有形成一个完整体系。冷数据、死数据偏多,开放共享的动力不足,大量的数据需要重复录入,给业务应用融合造成很大成本投入。

另外,我们数据标准化程度不高,困于数据条块分割,导致数据接口不一致,需要对数据语义不断解释,造成数据要进行多次翻译,这样降低了数据使用效果。同时权威性不够,因为原有的数据都是各自为政。当数据汇聚集中后,权威性就成为一个需要面对的问题。谁是主数据,谁是参考数据?以谁数据为准,谁是权威数据?举个例子,我们的婚姻信息是民政拥有,但是我们发现在民政只拥有他负责采集和管理的哪些婚姻数据,而法院审批过程中也产生了离婚数据。那么婚姻信息到底以哪一个部门数据为准?这个就是数据权威性到底由谁来负责的问题。

那基于以上,如何提升数据质量呢。我们认为要开展评估,对机构现状进行一个有效的诊断。评估的作用就是对按照相关的标准和原则,对各个组织和机构的治理能力以及数据质量管理进行有效的评估。通过一个全面诊断、查找问题、提出整改方案,来促进数据治理能力的提高和数据质量的持续提升。数据治理评估就是诊断数据治理能力,完善数据治理体系。

两个模型:

图1.5

数据治理这种评估,可以参照国家的相关标准:DCMM,数据管理能力成熟度评估模型。另外针对数据质量评估,我们赛迪评测中心提出了数据质量评估模型。

DCMM评估模型,参照了DMM模型以及国际相关的标准,形成了中国数据管理能力能力成熟度模型,主要评估组织对数据管理和应用的能力。对组织内部如何进行管理数据和如何应用数据进行对标,实际上给大家提供了一个指引,指导大家如何来做、需要从哪些方面来思考问题。

图1.6

DCMM模型主要内容,从战略、治理、架构、标准、质量、安全、应用、生命周期管理等要素,形成了8个主要的能力域,以及扩展的28个能力项。这里面实际上把治理作为一个要素点去考虑。首先要把它纳入到一个公司的战略,从战略层面来设计相关的组织结构、制度建设、规章、沟通机制、数据基础架构、技术方式、应用安全、质量管控、标准和生命周期管理等各个方面。

这个过程当中核心在于制度的建设、质量的管理,我们认为数据治理和数据质量应该是全员参与,执行者要赋予相关部门管数据的权力。数据治理以及数据质量应该是一把手抓,让更多领导重视它,赋予相关部门一定的职能。

数据质量提升是一个持续的过程,要求各个环节都要按照既定要求有效执行。这个标准给大家提出相关的思考,如何建立各单位的数据治理体系以及管理体系模式。数据治理过程及管理过程,是一个逐步迭代的过程,是一个逐步成长的过程。根据DCMM评估模型成熟度等级分为:初始级,就是数据管理需求以项目级体现,没有实现统一管理,比较分散;受管理级别,就是组织已经意识到数据是资产了,指定相关人员进行初步管理;稳健级,就是数据已被当作实现组织绩效目标的重要资产了,管理比较规范化;量化管理级,数据已被认为获取竞争优势的就是重要资源了,数据管理的效能做到量化分析和监控;优化级,数据已成为组织生存和发展的基础,相关管理流程能实现优化,能在行业内进行最佳分享。成熟度是个逐步递增、逐步升级、逐步成长的过程。

图1.7

关于数据质量评估模型,我们认为在质量管控过程中,基础支撑、数据资源、管理保障是起决定性作用的。基础支撑,就是是否建立了相关的标准体系以及对所有的数据使用过程当中是否有相关管控体系,这些是保证数据质量的前提。其次是数据资源本身,资源体系是否建立完善,数据是否具备准确性、一致性、完备性、及时性等等,在这个过程中我们要构建一个多元异构的体系,只有数据资源不断丰富,我们的数据质量才能不断提升,只有每个数据质量都去管好,各单位数据质量才能提升。最后强调保障体系要到位,因为所有的这些事情都是需要人来实施,都是需要各个部门共同参与,组织保障、政策保障、人员保障、绩效机制,建立这样一套完善的保障体系,才能保障数据质量的提升。

图1.8

数据质量评价最终目标就是管好数据、用好数据,以应用场景倒逼将数据有效集成。这样才能保证不是为了数据管好数据,而是要让数据有价值和应用起来,和真正的业务结合起来,与业务联动,通过数据带动新的业务发展,这就是数据应用以“业务为牵引、数据为驱动”一种新的数字经济发展模式。

赛迪研究院也在做相关探索,我们构建了数据治理服务生态,打造数据治理权威智库。构建两大平台,一个是软平台,数据产业生态联盟和数据经济联盟;硬平台赛迪有数据治理公共服务平台、大数据平台、数质团以及数据质量开放实验室。构建了三大类服务,以研究咨询为主,对部支撑,给部里提供相关的战略咨询;开展行业研究,围绕行业热点,提供相关的产业发展咨询报告;同时也借助评估测试等工具,开展了评测认证业务以及方案推介业务。另外,通过媒体期刊和举办会议活动等方式开展了数据治理宣传推广。

我们围绕以上业务和服务有效构建了一个生态圈,鼓励各方面协同发展,这个过程当中通过软硬相结合方式带动整体业务发展。同时我们也积极开展了数据治理相关战略咨询工作,目前我们正在开展数据治理理论体系方面的相关研究。另外我们也是DCMM标准的认证机构之一,给大家提供相关认证服务,有关数据治理的系统平台测试等基准测试领域,我们也在开展相关的服务,形成了全方位的数据治理技术服务。

最后,我们认为数据治理过程当中,更重要的是一个文化缔造和理念传播。我们通过举办论坛会议等,通过相关的舆论宣传将我们的理念向社会进行分享,让大家更多的参与数据治理,形成从社会文化角度营造开展治理的氛围。因此,像今天这样的大会就非常有必要了,借助大会将大家的理念统一了,才能够使这项工作做的更好。谢谢!