大咖观点

  • 首页
  • >
  • 大咖观点
  • >
  • 数据治理:谈数据标准化的时候,我们到底在谈什么?

数据治理:谈数据标准化的时候,我们到底在谈什么?

标准是人类文明进步的成果。从中国古代的“车同轨、书同文”,到现代工业规模化生产,都是标准化的生动实践。伴随着经济全球化深入发展,标准化在便利经贸往来、支撑产业发展、促进科技进步、规范社会治理中的作用日益凸显。标准已成为世界“通用语言”。世界需要标准协同发展,标准促进世界互联互通。

——习近平 致第39届国际标准化组织大会的贺信 2016年9月9日

标准的重要性,自然的不言而喻的!

数据标准,同样重要!

我们经常听到XX数据不一致,异构系统集成难,数据分析不准确,大数据预测都是骗人的等等数据管理和使用上问题,80%都是数据标准不统一造成的。

DAMA的数据标准在哪里

近期一名读者问我了一个问题:

数据标准如此重要,为什么在被誉为数据管理界"葵花宝典"的DAMA体系中偏偏没有数据标准?我们来看下DAMA的数据管理体系中都包含了哪些内容:

DAMA-DMBOK1职能框架定义了 10 个主要的数据管理职能,它们分别是:数据治理、数据架构管理、数据开发、数据操作管理、数据安全管理、参考数据和主数据管理、数据仓库与商务智能、文档和内容管理、元数据管理、数据质量管理。

DAMA-DMBOK2职能框架定义了 11 个主要的数据管理职能,它们分别是:数据治理、数据架构、数据建模和设计、数据存储和操作、数据安全、数据集成和互操作、文件和内容管理、参考数据和主数据管理、数据仓库与商务智能、元数据管理、数据质量管理。

这位同学的这个问题很好,也看得出他是带着思考学习的,正如上图所示DAMA-DMBOK1和DAMA-DMBOK2虽然在数据管理职能域上有一些差异,在这两个版本中,的确都没有“数据标准”这个数据管理域。

但事实的真相真的是这样吗?难道DAMA不知道数据标准的重要性吗?

答案显然是否定的!

虽然我们看到在DAMA的体系中没有单独讲数据标准,但是数据标准是含在了每个知识领域当中的。其实只要仔细阅读你就会发现DAMA提到的每一个数据管理职能,都离不开数据标准,甚至很多数据管理的过程本身就是在做数据的标准化,例如:设计数据模型和元数据、梳理数据分类分级体系、定义数据质量规则和检核标准、设计数据存储模型和规则、定义主数据分类和编码规则等等,这都是数据标准的内容。

数据标准的作用和特性

数据标准与企业数据管理的每个域都相关,是数据治理工作的最基础内容。

主数据管理中,需要明确主数据定义、分类、编码、模型;元数据管理中,需要从业务属性、技术属性、管理属性三个方面定义数据标准;

数据质量管理中,需要定义数据模型、质量规则的标准;

数据安全管理中,敏感信息的识别、数据的分类分级都是对数据进行标准化过程;

数据仓库与BI中,需要定义数据模型、数据指标、维度、度量等数据的标准;

数据集成中,数据标准让不同主体拥有了系统之间交换标准化数据的能力;

数据存储中,存储格式,存储位置,数据结构等都离不开数据标准;

……

数据标准的作用还有很多,但最核心的作用是为各部门、各系统建立了一个沟通的桥梁。

除此之外,数据标准还具有如下特性,企业在实施数据标准化的过程中,应予以关注:

开放性:在标准制定过程中,谁提出需求,谁负责起草,谁提供建议,谁负责决定,以及标准的权利归属等在组织范围内应当是开放的,每个人都可以参与进来,每个人都有权利提出数据标准的需求和建议。

透明性:数据标准所涉及的标准规划、标准制定、标准发布、标准执行、标准变更、标准维护等程序应是公开透明的,所有技术讨论、会议纪要都存档并可供决策参考。

可用性:企业制定数据标准的目的是让数据更好的使用,而不是单纯为了对数据增加约束或条件。能够让企业用起来的数据标准才是好标准,否则就只是一个无用的文件。

维护性:企业的数据标准的维护是一个制定、测试、发布、执行、修订、永久访问的持续过程。

企业的哪些数据需要建标准?

数据标准并不是一个“专有名词”,而是对数据的一系列“规范性约束”的抽象。——《数据标准管理实践白皮书》
这句话也印证了为什么DAMA体系中没有将数据标准独立出来。数据标准是一系列的“规范性约束”,它作用于数据管理的每个关键过程和活动中,也就是说数据标准贯穿于企业数据管理和应用的全过程当中。

笔者在《数据治理系列3:数据标准管理》一文中曾对企业数据标准建设内容进行了分类和定义,主要涉及三类:1)数据模型标准,即元数据的标准;2)主数据和参考数据标准,3)指标数据标准。这三类是我们在企业数据管理和应用过程中最常见的数据标准。

还有一种常见的数据标准分类方式,是分为基础类数据标准和指标类数据标准两大类,其中基础数据是指业务过程中直接产生的,未经加工的基础业务信息;而指标类数据是指由一个或多个基础数据根据一定的计算规则进行加工计算得到的。例如,《数据标准管理实践白皮书》对数据标准的分类就是这两大类。

另外,也有按照数据的属性要素组成来进行数据标准分类的,从数据的业务属性、技术属性、管理属性三个维度定义数据标准。这种分类方式本质上就是元数据管理,也可以说通过元数据管理落地数据标准。

企业数据标准该如何建立?

提到建立标准,你可能还会想到要参考国际标准,国家标准,行业标准等等。没错,这是制定企业数据标准的第一步。收集现行的国家标准或行业标准,在根据企业需求确定数据标准的范围。但由于每个行业、每个企业都有自己的特点,真正能够参考的数据标准其实并不多。

那么,企业数据标准到底该如何建立?

一般来说,数据标准的建立有5个步骤,分别是:数据标准规划,数据标准制定,数据标准发布、数据标准落地和数据标准维护。

1、数据标准规划

上边我们说的收集现行的国家标准、行业标准就是标准规划阶段的内容。除此之外,这个阶段重点是对企业业务和数据进行调研和分析,结合企业数据标准和需求和现状,明确数据标准的范围和数据标准体系框架。

2、数据标准制定

在数据标准体系框架下,按照数据标准范围要求进行业务域、业务主题的划分,针对每个业务主题所涉及的数据进行建模,定义每个数据实体的业务属性、技术属性和管理属性。这个过程如果现行的数据标准存在能够满足要求的数据元子集、代码表,则可以直接采用。如果没有就需要从业务属性、技术属性和管理属性三个方面定义新的数据标准。

关于如何划分业务域,业务主题,之前的文章中有过介绍,本次重点介绍下如何制定一个数据模型的标准。

一个数据模型可以包含多个数据实体组成,每个实体包含多个属性,而每个属性至少包含1个或多个数据元。每个数据元对象有且只能有一个特性,每个特性也只能有一个数据表示。例如:在“人员”数据模型中,“人员”为数据实体,他包含了姓名、性别、年龄、民族、学历、婚姻状况、职务等属性。拿性别这个属性来讲,包含了“男、女、未知”三个数据元对象,其中“男”这个数据元可以用数字“1”表示。

注:数据元是组成数据的最小单元,在数据标准制定过程中需要对数据模型涉及的每个数据元进行标准化。

3、数据标准发布

数据标准发布是在标准制定完成后,向公司各相关部门征集意见,并根据各部门意见完成标准修订后,在公司范围内正式发布。数据标准一经发布,各部门、各系统应按数据标准要求执行,如果需要对发布后的数据标准进行修改,需要走正式的数据标准变更流程。

4、数据标准执行

数据标准执行涉及到新建系统和现有运行系统的贯标。原则上,新建信息系统必须严格按照发布的数据标准执行;对于现有在运行的系统,应按照数据标准要求进行整改或建立映射关系,以满足公司数据统一的要求。

强调一下:数据标准要想能够用起来,在数据标准的制定、发布、执行的每个阶段都需要做大量的宣贯和培训工作,以便促进全公司对数据标准达成共识,更好的应用到实践中去。

5、数据标准维护

由于业务运行与发展需要,或引用的国家标准等外部标准的变化,需要对已发布的数据标准进行修订或变更。

有一点需要注意:在对数据标准修订或变更之前应充分做好变更难易程度,对业务影响程度的评估,并制定出详细的解决方案方可执行变更

如何让数据标准真正发挥作用?

要让数据标准能够用起来,在企业的数字化中真正发挥作用,在标准的建设和执行过程中应注意以下几个事项:

1、全面的数据盘点

基于企业业务架构,从满足企业经营管理、数据分析、数据共享、数据集成等需求入手,对各个系统的数据资源进行盘点。

通过梳理数据现状,厘清业务开展过程中业务流、单据流以及数据流,明确数据资产分布,数据的质量情况、数据集成情况、数据管理情况等问题;明确各基础数据和指标数据的业务含义、数据口径、适用场景、数据来源、数据关系等信息。

2、精细的标准规则

从数据域、数据分类、数据实体、数据属性四个层次构建企业数据标准体系。

数据域是按业务领域划分的顶级数据分类,例如:财务域、人力域、生产域、营销域等。

数据分类是按照业务主题对数据域的细分,例如:财务域又可以分为盈利能力主题、企业发展主题、资金管理主题、运营管控主题等。

数据实体是每一类数据对象的个体,是数据标准化的主体,需要规范数据实体的定义、标识、表示和允许值的数据单元。

数据属性是描述数据实体的性质和特征的数据,从不同的视角,数据属性可分为业务属性、技术属性和管理属性。

业务属性:定义数据与企业业务相关联的特性和用途,统一业务描述和理解,包括:命名规则、编码规则、业务定义、业务规则、值集、维度、粒度等。

技术属性:定义数据与IT技术实现相关联的特性,对IT实施形成必要的指引和约束,包括:字段名称、数据类型、数据格式、数据长度、度量单位、枚举值的限定等。

管理属性:定义数据标准在管理和使用方面各部门承担的责任,对数据归属进行确权认知,明确数据所属部门、数据管理部门、数据使用部门、标准发布日期等管理属性做出规范。

3、全域的覆盖范围

数据标准够不够成熟一个非常简单的衡量标准就是看它的覆盖范围够不够广。一般来说,覆盖范围越大,数据标准越成熟!

数据标准覆盖范围有三个方面:

1)组织范围,即,数据标准适用的组织范围,部门级、公司级,集团级还是行业级。

2)业务应用范围,即数据标准都哪些业务部门会使用,例如,一个“客户”数据标准,就会被市场、销售、生产、采购、仓储、物流、售后等多个部门使用。

3)落地系统范围,即该标准需要在哪些系统中贯彻执行,例如:我们上边举的“客户”数据标准,落地系统范围可能包括ERP、CRM、WMS等。

4、规范的业务流程

数据治理过程中,有一个比较常见的问题:企业花费了大量精力建立起来的数据标准,在实际业务中没有很难使用起来。当然,造成这个问题的因素有很多,例如:标准本身制定的不合理,历史系统的改造难度大,标准没有得到广泛的普及等等。

在众多的因素中,有一个因素我们不能忽略,那就是“业务流程的优化”。只有将数据标准与业务流程进行深度融合,融为一体的时候,才是真正意义上实现了数据标准的落地。

数据很重要,但我们不能只关注数据而忽视了业务流程。事实上,数据标准和流程优化,相互依存、互为支撑,没有规范化的业务流程,就不会有标准化的数据。

写在最后的话

在数据治理的过程中,你有没有被你的客户或老板问过这样的问题:“有没有现行的数据标准拿来参考?”或者“这是个分类/编码/模型参考了哪些标准?”。

这些问题我是被问过多次。说实话,虽然我在平时也会刻意的收集一些相关的数据标准,但正如上文提到的一样,在实际项目中能够真正借鉴的并不多。这个问题我曾经思考过,往大里说这和我们的国情有关,因为我们的文化是相信权威,而国内的权威无疑是国标,但是国标制定和更新的速度还远远跟不上企业的发展需求。希望随着国家对数据的越来越重视,各行各业发布的数据标准会越来越多,应用范围也越来越广。