数据质量峰会嘉宾谭海华

谭海华

嘉宾介绍:
• 华矩科技董事长CEO,中国管理科学研究院企业管理创新研究所大数据共享技术专业委员会主任,大数据共享联盟联合创始人,国家发改委培训中心特聘大数据专家讲师,中国管理科学研究院学术委员会学术委员,广州市工业和信息化委员会大数据及人工智能专家团首批专家成员。
• 曾服务于IBM全球服务部、埃森哲(Accenture)顾问咨询有限公司、微软(中国)(Microsoft)有限公司。主要从事大数据相关领域尤其是数据质量技术及用户画像和统一视图的研究及实践,以及IT企业运作管理、企业管理咨询、企业大数据战略规划、数据技术管理咨询等。

峰会演讲目录:
• 数据治理在当下大数据内外环境下的发展
• 企业数据治理建设面对挑战
• 如何提升企业数据质量

嘉宾演讲稿一键下载

大数据时代的数据治理挑战及应对策略

本文根据谭海华先生在【DQMIS2018第二届数据质量管理国际峰会】现场演讲内容整理而成。

数据质量管理国际峰会演讲嘉宾谭海华

  尊敬的各位领导、专家、同仁,我分享的题目叫做大数据时代的数据治理挑战及应对策略,主要分几块。首先简单回顾一下整个数据发展的过程。第二个,企业数据治理建设面对的挑战。另外会重点提一下我们怎么提升企业的数据质量。数据治理不是我们的目标,最终是提升我们的数据质量,包括提升我们的使用效果,这才是我们的目标。这部分会有一个简单的案例分享。

数据治理在当下大数据内外环境下的发展

  我想大家都很清楚,社会上都说今年大数据的时代都过去了,而讲得更多的是人工智能。但无论是大数据、人工智能还是AI,它们的底层都是离不开数据的。冰山一角很多时候我们都会用到,现在我们来探讨深海下面的一些问题。

数据质量管理国际峰会演讲嘉宾谭海华分享内容

  回顾一下我们讲数据的过程。大家谈数据,首先它是一个看似简单的问题。那么具体数据是谈什么?我这里讲的还是企业界的概念,这里面有很多高手,也会给我们这方面的指点。

  我们谈数据1.0、2.0、3.0,它具体发生了什么变化?我们现在面临的问题跟以前的问题为什么会是这样子的?这几天我也跟来自英国、美国的朋友,包括日本的朋友探讨这些问题,他们在美国经济体包括日本经济体,都比我们成熟很多,尽管我们在从事同样的工作。我们也在看到这个经济体里面,数据在这里面成熟的地方。虽然我这个片子在半年前、一年前就写过了,但是我们探讨的是在不同的经济体,关于数据3.0的提法真的不一样。

  在1.0,我们所说的数据,更多的是一个凭证。我们最关注的尤其是企业,更关注的是凭证,包括我们运费运单、保单,我们为了是做证据用。发展了一段时间之后,这个数据不仅是个证据,它已经往精准营销的方向走了,这时数据不仅仅是一个有效的历史记录,它还是一个可以拓展我们业务的资源。在3.0,在今天,很多人都在讨论AI的问题,AI的问题已经到了人工智能,这里面有一个很大的情况:数据关联的分析。那么怎么通过人工智能来发现数据之间的关联,来形成我们对数据处理的原则?

  我想从数据发展的维度来看这个问题。在这里面,在每一个环节里面我们数据质量的标准、方法,包括它的流程都不一样。这个是不一样的情况,也就是说在数据质量它没有一个绝对的指标。我跟一个朋友探讨过,什么是好的数据质量,数据质量的标准在哪里?他们就说我们把错误的删掉,把错误痕迹删掉。这个不对,有一些痕迹要留着,也许这些痕迹在某些时候就会变成很有价值的东西,这是一个相对的概念。

  还有一个新的问题,不管是中国、欧盟、美国还是联邦,我们都会看到监管法规,尤其是大家都很谨慎的GDPR。在GDPR快要公布的前一个月,大家就已经在喊狼来了,尤其企业界的朋友很关心这个问题。真正宣布的第二天,就有一个企业找到我,问能不能给他们做一个GDPR的咨询。这个企业是旅游行业的,运作模式类似于互联网,他说我们的需求是快速知道怎么运作GDPR。我们现在会发现数据的问题,包括数据治理的问题,不仅仅是内部业务上的要求(包括精准性的要求),它已经涉及到怎么在游戏规则下面去获得更多的资源或者竞争力。而这个也是数据质量、数据治理在业界发展上的问题。

  如今,数据治理已经成为企业现在发展的策略,同时也有很多人都在探讨数据治理。我相信很多人,包括在座的各位也在问CIO、CDO是什么关系,包括现在首席数据官都是最近几年才成立的新角色新岗位,这个岗位意味着整个企业、整个战略要往这个方向去走。我最早接触的企业大概是四年前,是香港的中银分行,他跟我们交流的时候,他说我们已经有数据战略部门,这个事情归属数据战略。目前在大型企业里面已经开始把数据治理作为了企业战略性的决策,这是现在看到的一个整体的情况。

企业数据治理建设面对挑战

  回到刚才提到的数据质量的情况,这些挑战是什么样子的?我在跟很多朋友交流的时候,我们探讨数据治理谈的是什么,在不同的岗位、不同的阶段都会有不同的理解。

  首先是成果。什么叫做数据治理?我们期待的是什么?我期待的是一个平台吗?什么叫做数据治理?具体想达到的是什么?关于这个问题的回答,对于企业界来说是不能回避的问题,他要做预算的。作为CEO、董事长肯定会问你,你做这个数据治理想给我的是什么?在过去五年前会告诉董事长,我现在需要建一个平台。但现在有可能告诉你,现在我需要让你的报表更精准,让你在看到我报表的时候,没有任何怀疑。这就是非常大的改变,现在大家关心的是你能给到什么。做数据治理,是为了什么?

  第二个标准,回到成果的问题,这个是大家经常碰到的。我是要一个系统,我是要一个平台,我现在就要做数据集成,我要做数据仓库。那么在这里,大家会看到有些是硬性的,看得着摸的着,但是这个钱花了也是白花,因为技术是很快就被淘汰的,就像我们用的手机一样,三年之后就被淘汰,技术的发展是非常快的。而关于应用上的问题,如果我能建立一套标准、一套能够为我的企业持续发展所用的数据治理指标,那么具体我的成果会是什么,还有一些优化数据、改善的报告,这些都需要一个实时的数据展现。数据治理能让你在一个大的演示屏里面一秒看到你的数据,但这个还不是数据,这也是一个UI而已,重点是你展示的数据是否精准,能够把你业务的所有场景都给展示出来,这是数据治理的一个成果。

  还有一个精准用户画像,放在场景使用部分,我用的数据能够提升我的业务场景效果,但目前大多数人都认为这个数据跟我的业务无关。其实对企业来讲,更需要的是数据治理在我们的什么场景下得到真实的体现。简而言之,就是我的销售额上去了、找的人是对的、不会浪费时间,这个就是我们讲的成果问题。

  标准,我刚才也看了王教授的报告,在这里也想邀请王教授帮我们做一个企业界的数据治理的标准体系,这个是很有意义的。究竟一个企业的数据治理标准是什么?怎么认为他是做好了?怎么认为他没做好?刚才王教授的标准体系如果可以用在这个行业、用在我们企业界,那么我刚才讲的是非常有价值的。

  回到标准,我们会看几样东西,这是刚才讲的目标。示例:假如作为一个企业,我要去招标,我要去建设,至少是中规中矩的说法,这个是不会错的。当然我希望最后构建数据服务和应用体系,不断优化数据管理体系以实现真正的数据驱动。所有业务都是数据驱动,不仅是数据驱动,我们还要再加一个精准的数据驱动。

数据质量管理国际峰会演讲嘉宾谭海华分享内容

  数据驱动概念本身就是双刃剑,好的就往正向走,肯定是驱动的,这张图只是我在讨论刚才提的标准的问题。我相信这个动作大家都做过,大家要是用苹果手机建立你自己的指纹,这是一个过程,四步做法,没有第一步就没有最后一步。你需要不断的丰满,需要不断把你的信息得到精准才能够成功。

  我们在谈数据质量的时候,很多人在说这个数据真的没有问题,我有我的规则。但是把这个放到更大思维去看的时候,你的信息完整度在哪里,你的信息完整度对应某一个场景来讲达不到就如同错误,也就是说你是过不去的。对的数据不代表真相,但错的数据一定是不能反映真相的,只有正确的、高质量的数据才能让你无限接近真相。

  回到标准问题,我们还是讲到标准问题。这个我相信很多朋友在讨论数据标准的时候,数据质量的时候经常用到这几个属性。完整性,刚才那个图是完整性的展示。没有这几个元素包括相关性、唯一性、有效性、及时性、重复记录等,完整性是做不到的。

数据质量管理国际峰会演讲嘉宾谭海华分享内容

数据质量管理国际峰会演讲嘉宾谭海华分享内容

  大家在谈标准的时候,真实性、精准性、一致性、可理解性、可用性,这是从两个大的维度去看数据质量的问题。在前面这张图谁更关心:IT、技术人员更关心;下面这张图,IT人说跟我无关,我们业务部门的人就非常痛苦。IT人说前面那张图我已经做到了,已经尽我所能了。但是业务部门的事情,谁来把控业务部门数据的真实性?我怎么知道它是真实的?这个电话号码看起来是对的,谁来打电话来确认?这叫真实性。还有精准性、一致性,这个我就不展开了。

数据质量管理国际峰会演讲嘉宾谭海华分享内容

  接下来的主题是怎么体现真相的优质数据,还有几个点大家在理解的时候。比如路径的问题,很多去做数据质量或者是数据治理的时候,会问我哪里开始。现在我先不问,先开始做。但是这个数据是什么?等下我会讲到数据的理解,每个企业的数据资源都不一样,现状也不一样,那么该如何开启我们的数据治理?第四个就是工具,我要哪一个工具?第五个就是时机的问题,我要在什么时候开展?我最近在跟一家保险公司合作,这个保险公司在中国是一个新的保险公司,他面临的数据治理问题,这里面就包括时机。我该不该在现在就开始做一些数据,还是等我的系统上去以后再把我的数据完备?比如现在讲建数据仓库,建数据仓库之前是先做数据采集,还是先建立一个仓库,再做数据采集,这就是一个时机的问题。

  最后就是投入产出的问题。我做数据治理,我碰到很多朋友会有疑问,说我投入很大,但是价值在哪里?回报在哪里怎么?体现我的回报?是一篇好的报告吗?我能不能让投资回报变的更加科学?这会困扰很多企业做判断,这也是大家很关心的问题。有关这个问题,前面已经阐述过了。

数据质量管理国际峰会演讲嘉宾谭海华分享内容

  示例,我们看到在做数据治理各个环节的问题,这是一个很典型的客户数据管理过程的路径。我相信大家都不陌生,ABCDE,在五个环节里,我们很多时候把我们定位在哪里?我们定位在中间黄色的指标体系里,我们作为一个独立的行业来分数据质量在哪里?很多放在B跟C行业里面,这里面A、B、E这个好像是在我们开始讲的时候,不关数据质量范畴。但是等会儿我们会看到,当我们在做数据治理的时候,它是有联动的。

  在A的板块里,应用场景已经讲了很多。最后这个E的时候,这次参会的嘉宾都是非常经验的。在这些领域里,我看大家的背景都很资深,在我们以前做数据的时候,比如我们在做ABC的时候,是不会考虑D跟E的;做ABC的时候,那是我们IT的事情。大家在看我们前面讲技术的时候首先是叫做Data mart,Data mart叫数据集市,是为了系统应用。有了数据仓库才做数据集市,我先建好数据再整理,但是这个逻辑思维在现在的大数据里面已经有点撑不住了,要么去帮它建这个数据库,别等我采集完再用。1.0、2.0、3.0,所有的场景问题,假如还用这个思维去做,第一根基就不知道什么时候才能出来。

  等一下我们会讲到E未来会决定你的A。这是最近在跟朋友交流的时候,有一个词非常重要:数据准备。原来我们不叫这个概念,我们叫做数据收集,全部把它收在一起。数据收集主观的意思是为我的E所用来去准备。现在有很多技术也是可以支持这个理论的,这就是我们讲的路径。在这个路径里面整个数据治理会有很多的挑战,第一个我们讲到的:我们没有办法形成我们收集数据的维度包括它的定义。这里面要反过来看E,假如E的场景不清晰,甚至你E的数据溯源不清晰,你是没有办法去建立数据准备的计划的,否则你搜集数据的目的在哪里,这个是没有办法做的。当然这也包括一个情况,那么多的海量数据放在这里,自选数据有没有什么依据?依据在哪里?这是传统领域,传统领域就是ETL,大家现在谈ETL,这不是一个新的技术,已经非常成熟了,包括它的调度、选择。有一个词,ETL大家讲的就是T+E,我的ETL能不能在一天做完?还是要一个星期才能做完?这就是一个最担心的指标。ETL好还是不好?能不能在一天之内给我?这是我们面对大数据处理时的一个很大的挑战,数据质量差、ETL不堪重负!

  C的挑战这里面有一个比较大的问题。我们在讲这个C,B就是ETL抽取,C就是要做清洗,再处理的过程中,D大家碰到的最大问题就是没有规则。没有让自己满意的规则我们做清洗怎么做清洗?没有规则,王教授的报告里面讲了很多规则。政治经济学,是归到政治学还是归到经济学,信息管理系有一个非常重要的内容,我在读书的时候最时髦的研究就是机器检索,机器检索最重要的就是机器要懂规则。规则在哪里?不懂规则这个机器是不能做的。我们最大的问题在数据治理这里面在做数据分析,数据质量里面最大的问题是我们没有办法得到一个让我们满意的规则。关于这个规则跟算法,我相信在未来一定会在大家讨论AI、大数据时,是必须要清楚的。

  还有一个问题,IT跟业务人员之间的沟通没有效能。IT做IT的,业务做业务的,我们在前面做过一个案例。这个案例就是把商保的数据跟我们的保险公司进行对接,商保没人管,消费者非常痛苦。一百块、八十块钱医院帮你报掉,二十块钱没人帮你报?那你走商保,最后保险公司层层审批才能报给你。这个过程非常长,其中有一个很关键的点,在商保系统跟我们的保险公司系统做一个统计,大家理赔最关心的住院时间、住房费都不一样,怎么认定这个五天?医院认定的五天跟保险公司认定的五天是不是一样的?他不认可,医院说我八点钟入院认为是一天,那保险公司不是这样认为的,保险公司是你在12点进这个医院的时候才认为算一天。住酒店也是这样的,酒店可以让你两点进,提早到达,不让你进是有道理的。你来早了没有房子,这不在我的合约里面,这是我们讲的情况。这个就是我们在定义的时候,IT人员跟业务人员对这个定义的理解上会有问题,这就是数据定义的问题,IT有IT的理解,不同业务之间有不同的理解也是一样的。

  还有一个就是D,这个领域没有高质量的输出,它会直接影响到算法。关于D,我想有很多数据质量的问题是因为D出现了问题,才会反推这个出现了问题,至少我理解中国的情况是这样的。在D的时候走不下去,因为没有人相信我的报告,我要再重新回头看我的问题,还是回到我们面临的挑战?下一步我就在想有几个点,这几个点没有办法系统去展开,但是我可以讲几个点是我自己跟别人交流的时候会看到的一些场景。

如何提升企业数据质量

  第一步首先要了解你的数据,这个事情往往容易忽略。人对自己的了解真的不多,自己拥有多少数据,了解数据的时候大家停留在概念上或者还是凭感觉的?了解数据,什么是数据本质?这个事情还是企业界的概念,包括业务信息、设计信息,有很多维度需要考虑。

数据质量管理国际峰会演讲嘉宾谭海华分享内容

  另外一个提升数据治理的水平,这里列出来的都是业界用到的技术,并在不同产业里去使用,包括元数据管理、数据质量、数据剖析,大家往往没有把数据标准作为独立的分支,这个报告是全面的报告,不是我自己杜撰的,我只是把它抄下来。

  数据的剖析技术,这个在我们整个数据治理里面它会成为一个非常关键的技术。另外一个词叫做Business Rules,我们还是回到刚才讲的场景,包括相关的技术,大家在看的时候,不会去太多的想。但是你去分解的时候你会发现,包括我做调查,就是了解自己的兄弟是什么?包括频率、依赖性等,我们在做数据探究的时候,假如你有非常完整的指标体系、评判体系,你对你的数据有一个非常清晰的360度的轮廓,这是很重要的。

  另外一个,这些数据集成标准化的问题。还有一个匹配的问题,就是集成的问题,这些都是我们的技术。假如把这种技术分成了不同的小组、不同的模块,你的职能,有数据管理、数据质量诊断、数据优化、数据可视化,这是未来在讨论数据的时候它的内涵和外延在哪里。

数据质量管理国际峰会演讲嘉宾谭海华分享内容

  这是一个数据治理的平台,也是我们公司业务的框架。这个框架我们自己用一张图放在这里。我们看这些的时候,通过什么样的角度来看看待这些问题。有诊断问题、有数据源的问题、有行业规则的问题、还有一些第三方的问题。这是我们的框架,我给大家看一个例子,看一致性,我们就看一个点就好,大家已经看过一致性,我刚才讲的商保的问题也是一致性的问题。天数一致性问题会用到数据的范围里面比如说用到元数据,就是定义的精准性,没有元数据的管理,容易打架,要用到元数据管理的技术,还要用到数据剖析。你要保证一致性,你要发现那些违规的、不符合你定义数据的规则,并把它找出来。你必须要做数据的分析,你必须要有这个能力,虽然你制定了这个定义,但是不代表你能够保障数据质量的提升。

  第三层技术,包括规则库的引擎,还有行业规则库。行业规则库就举刚才的例子,假如说我在医院里面开始做出院数据检查的时候,联系了我们的元数据定义。在他的规则库里面已经定好了R点入院时间是一天,他怎么跟这些规则并把它激活?在你的数据发现层面能够联动起来来找到我们这些问题,我们要解决一致性的问题,跟我们技术之间的关联。大家在讨论数据质量的时候,就认为它是一个概念性的问题。其实不是的,为了实现它背后还需要蛮多的技术支持。

数据质量管理国际峰会演讲嘉宾谭海华分享内容

  把刚才讲的我会把它再抽象,再抽象一下会看到一个情况,在右手边business我们在每一家企业开始都有专家帮我们建立用户规则,没有企业说是没有规则的,肯定是有规则的。但是这个规则足以让你的数据良性走下去吗?我们需要有一个自动化的学习技术,这是一个循环过程。我们在这一套体系里面怎么通过scan去发现问题,检测data lake的问题,来发现新的规则或者是调整规则,并不断丰满我们的规则,通过这个规则才会让这个变成良性的发展体系,这是一个逐步发展的过程。

数据质量管理国际峰会演讲嘉宾谭海华分享内容

  这是这个逻辑具体的概念,这个概念是智慧风控在银行保险里面最典型的风控模型建立的一个体系,风控肯定离不开校验的问题,包括讲模型,模型是什么意思?模型就是还需要校验,三层的循环,这三层循环是自我学习不断的循环,未来数据质量管理里面怎么引入机器学习包括深度学习,这里面包括数据的整合等等。

数据质量管理国际峰会演讲嘉宾谭海华分享内容

  最后一张PPT,我们要提升数据质量,每个维度我们都有自己该做的事情。包括我们怎么做360度的画像;我们怎么定义为了1,了解1是什么?这个场景怎么做我们360度的数据、做采集的准备、数据源的选择、数据剖析、ETL,这是整个的过程。