数据质量峰会嘉宾郑敏杰

郑敏杰

嘉宾介绍:
• 银景科技创始人及CEO
• 20多年的信息技术及数据服务的从业经验,2003年成立作为主要股东之一成立北京银景科技有限公司,担任公司董事长和CEO至今。
• 首创基于大数据,机器学习和深度学习的知识自动化智能引擎(KAE),通过机器学习产生基于每个企业特定需求特定资源的知识图谱,主题图谱和智能推断,使得企业内的每个知识工作者在知识的搜索,理解和推荐上更具启发性,更加智能化,更加精准。

峰会演讲目录:
• KAE 简介
• KAE 在数据管理中的应用

嘉宾演讲稿一键下载

如何基于高质量的知识图谱发现机遇与突破难点

本文根据郑敏杰先生在【DQMIS2018第二届数据质量管理国际峰会】现场演讲内容整理而成。

数据质量管理国际峰会演讲嘉宾郑敏杰

  我的题目是如何用知识图谱找出突破,找出创新,副标题是我的知识自动化引擎和数据质量管理。

KAE 简介

  我们的产品是知识自动化智能引擎,搜索是一个很热的东西,搜索引擎,搜索永远是有两个主题,一个是面向C,一个是面向B,这两个完全不一样,面向C的是免费的,是通过流量、广告来挣钱。面向B是收费的。我一直在探索这里有很多的共性可以做通用的工具,我做知识自动化引擎,每个企业不管是大B还是小B,需要的知识都是很特别的,我们针对它的知识去定制、学习,他在里面搜索就可以得到准确信息,这是我最终的思想。

数据质量管理国际峰会演讲嘉宾郑敏杰演讲内容

  这是我的架构,很简单,左边是数据来源,所有的数据,最重要的是各种各样的文档文件,统一拿过来以后通过机器学习、神经网络产生两个东西,一个是知识图谱,一个是主题图谱,主题图谱大家肯定搜不到,这是我发明的概念。知识图谱很多了,等会儿给大家介绍,通过生成这两个图谱就能够对知识做计算,知识计算就是分类、聚类、关联、推理,达到可视化交互,一个是语义联想,语义表达,一段文章,一段话,我能把它解析成计算机认可的结构化方式表达出来。主题导航,我把所有的内容都解析成主题,在主题里面找你所需要的信息。

  内容推断,你来一段话分析你讲的是什么,最后就是两个关联主题和概念关联。应用场景是三个,一个是智能搜索,让你变的更加人性,有启发式。第二个文本解析,对你的文章规章制度更加理解。第三个个性化推荐,就像今日头条一样。

数据质量管理国际峰会演讲嘉宾郑敏杰演讲内容

  主题图谱是什么意思?是机器学习生成的大量的主题,这个主题在我这里是基于统计出来之后的概率分布,这个圈圈里面是一堆词,这两个红的都是涡扇发动机,涡扇发动机它关联很多主题,右上角是讲启动的,3258是讲叶片的,还有讲燃烧的,我这里列了概率最高的前八个词,通过机器学习航空相关的文献生成的主题,他们之间是有关联的,这就叫主题图谱。通过生成主题图谱以后,生成右边那个图生成了好多主题,主题的大小、热点都是不一样的,下面还有知识图谱,通过主题图谱和知识图谱,把所有的知识让它智能关联,可以在里面进行知识的漫游,在研究当中做的意想不到的发现,我们叫做头脑风暴。

数据质量管理国际峰会演讲嘉宾郑敏杰演讲内容

  文本解析,我们对一篇文章,这是一篇很专业的文章,解析三个主题,一个是结冰,水滴,飞机,第二个讲是飞机的气动特性,升力等,最后一个是讲支线飞机的,我对这篇文章解析以后,理解完了以后最接近的文章是接下来这个文章结冰模拟对话飞机纵向气动特性的影响,它有两个主题跟它是一样的,大家可以用关键词去搜,它推荐的文章完全不是这类文章,完全是根据气动来推荐的,完全不相干,我们是基于语义,我们更精准。

数据质量管理国际峰会演讲嘉宾郑敏杰演讲内容

  主题导航,因为我通过语料学习,比如说你有一百万篇文章,学完以后只有一万主题,你这里面在学习以后把你的知识做了细颗粒度分类,这是一个真实的例子,这是高效经营管理安全防范措施,解析成三个主题,第一个主题全是讲各种各样的病毒。第二个主题就是网络安全。最后一个是讲高校,校园信息化,这篇文章第一个主题是23%,第二个19%,第三个就是11%,这就是对这篇文章的解析。

数据质量管理国际峰会演讲嘉宾郑敏杰演讲内容

  第一个主题就是3785,第一个主题最多的文章都是讲病毒的,虫子的文章,通过它找资料不会挑来挑去,你是在一个结构化、智能化、组织化的数据里面找你的东西,这是一个知识图谱,知识图谱非常多,我举个例子,我们生成一个图谱,图谱是非监督的机器学习,没有标注,你发语料我们做清理你去学,大数据可以产生图谱,蓝是最接近的一级概念,每个蓝的还有五个红色,相当于子概念。

  这就是语义联想,这也是我们独特的发明,跟搜狗输入是不一样的,输一个操作系统,右边全是跟操作系统有关的,为什么呢,对于任何一个客户来说一个是提醒,一个是学习,这个领域很快就能熟悉了。在这个系统里通过知识图谱、主题图谱、关键词搜索多个入口最后可以找到所有的文章,最后可以到主题导航,很快可以找到你的东西。

  还有一个推荐,现在是很火的概念,对to B的人来说,无论是医院还是电网工作人员他需要的资料都是定向的,第一个推荐就是语义分析,知道他感兴趣的内容,他看过的东西我们都打了标签,把那个主题的相关文章推荐给他,推荐给他的文章都是他感兴趣的那一类,做到精准推荐。这个是比较简单的,我刚才给代总也聊过,好多大的企业都订了国外数据,非常昂贵,用他们自己带的搜索引擎搜效率并不高,并不是我们的母语,这个工具第一个可以迅速把你的文档看,任何一篇文档都解析成三个主题,每个主题30个词,90个词你就明白讲什么了。第二个通过这些主题图谱你就知道哪些领域是最热的。最后一个你能知道哪个跟你最关联,通过我这个库可以跟你做深度的挖掘,让它产生意想不到的价值,英文主题结冰,右边就是跟它最关联的主题,第二个主题就是冰,讲冰的东西,但是你要进入中文研究结冰的领域就没有这个主题,因为中国在航空方面对结冰这方面没有研究,这也是真实的现状,我们公司一直在做飞机除冰的仿真。

  我这个工具是通用性的,是saas,可以放在公有云和私有云,几个应用场景,知识工程、知识管理、图书情报、办公自动化、企业门户,档案管理,内容管理,PLM。

KAE 在数据管理中的应用

数据质量管理国际峰会演讲嘉宾郑敏杰演讲内容

  我们这个东西怎么弄,对数据质量有什么关系,有很多的应用场景,我想的比较透彻的,因为我这个工具属于自然语言处理,在自然语言处理永恒的问题就是有歧义性,吃的苹果和苹果手机,这个怎么处理,我今天想了一下,自然语言歧义识别是我们最重要的应用,我们认识一个词的概念是看这些词和哪些词在一起,KAE知识引擎对这边的应用有四点可以帮助到大家,第一个就是对同义词和近义词的识别,我们学了26万篇中医的文献,学完以后,对心脏病这个词产生了这个图谱,这边有关五个词,讲的都是一个事,我们通过图谱可以很快把这个识别出来,这四个词讲的都是一件事,都是无监督的机器学习,没有定任何规则,前提是有高质量的文摘不是乱说话,都是标准文章,学完之后就能产生这样的关联,大数据,20多万数据可以产生这样的。咱们在做人工智能包括电网正交实验是很常见的方法,正交实验方法在数据治理上是让人很头疼的,但在这里一下子就被识别出来了。

  正交法,正交法也是通过这个识别,正交法有四个跟它讲的也是同样的意思,你对同义词识别通过这个就不用人工来弄了,可以省大量的人力物力,做规范的时候情报学上面用什么词借什么词可以定一个规范,不用人工去搜,节省大量的时间。

数据质量管理国际峰会演讲嘉宾郑敏杰演讲内容

  多义词,苹果也是多义词含有很多含义,这个词是MA,MA是一个缩写,在学术,医学,各种各样的缩写都有,这是我们学习关于MA这个词,通过我的语料,当天的语料是航空航天计算机和冶金,第一个MA是毫安的意思,主题的前三个是充放电,这个MA是毫安的意思。 第二个主题是马赫,这个MA讲的是马赫的意思,这是航空的领域。第三个MA,前四个词是机械合金化,延长材料,这是冶金合金金属合金意思的缩写,有很多不同的含义,这里面有很多的含义,你都想象不到它的意思非常多,通过这样的识别,把同样的MA不同的意思识别出来,伴随的词不一样,这样的词,第一个MA是和电池在一起,必然就是毫安,这个也是帮助我们医学上的术语也很多,美国有一些医学规范可以通过这个一词多义帮助你们提高数据质量。

  另外图谱有什么好处?突然来一个完全不知道的概念,通过图谱可以帮助你去理解这个概念,比如说传感器,通过这里面你进去看,蓝色的就是跟它直接相关的,长短记忆网络,关联神经网络,这些都是跟它相关的,如果你什么都不知道你就知道它是在什么领域里,帮助初学者,他不会乱跳,在很小的范围内找他的知识,这也是帮助他理解专业术语一个很有用的。

数据质量管理国际峰会演讲嘉宾郑敏杰演讲内容

  还有一个概念,很多概念很相似,到底是什么意思,我们用图谱才能说清,举个例子,知识工程和知识管理,很容易混淆,我也说不清它的区别,大家通过这个图谱大家可以非常清楚的看出它俩的侧重点是不一样的,知识工程它关联的概念,蓝的,是知识的获取,本体论,知识驱动,知识表达,知识推理,比较偏向于AI的,知识工程是来源于人工智能在五六十年代提的概念,知识工程偏向于人工智能工程的东西。知识管理,知识管理更偏向于情报,知识共享、企业管理,企业知识的组织,知识集成,知识地图,最后关联的东西,知识管理更偏向于情报,这是两个很细微的区别,这两个也是有交叉的,知识工程偏向于AI,现在知识工程也是人工智能很重要的一方面,知识发现。

数据质量管理国际峰会演讲嘉宾郑敏杰演讲内容

  我们学情报的时候,上学用的词是检索,不叫搜索,这两个语义讲的一回事,这两个使用环境不一样,检索主要是从情报的角度研究它的各种方法,这里所有的检索方法,文本抽取偏向于检索,我们在研究。搜索,完全基于互联网的,它的概念更关心的是点击,有多少用户反应,搜索结果,网络搜索这些东西,排名,关键词的搜索,这两个概念是不一样的。kAE作为一个挖掘的工具可以提供给大家很多的便利,不光是效率,快,还可以产生原来没有发现的规律,我刚刚说的飞机结冰在国外的研究领域跟云有关,中国没有,这都是通过知识的知识抽象出来的,它是机器学习的东西.

  我今天就分享到这,谢谢。