数据质量峰会嘉宾李胜利

李胜利

嘉宾介绍:
• 博士毕业于美国佛罗里达大学,现任北京大学信息管理系副教授
• 主要研究领域:电子商务,信息系统经济学,云计算,社交网络分析等;
• 曾在Production and Operations Management,Decision Support Systems等期刊上发表论文,曾为多个国际期刊和会议审稿。

峰会演讲目录:
• 研究背景
• 研究方法
• 研究结果
• 研究启示

嘉宾演讲稿一键下载

在线医疗信息质量——基于搜索引擎的研究

本文根据李胜利教授在【DQMIS2018第二届数据质量管理国际峰会】现场演讲内容整理而成。

数据质量管理国际峰会演讲嘉宾李胜利

  各位专家、各位来宾下午好,上午的讲座我听到前面的几位专家大家都是从公司内部或者是机构内部数据如何治理的角度展开的,我们的研究是换了一个角度,研究的是市场公开的数据研究,这个是我们研究的题目,基于搜索引擎在线医疗信息质量的研究,这个也是我们和美国佛罗里达大学的一个研究。我的汇报会从研究背景、研究方法、研究结果、研究启示四个角度开始阐述。

研究背景

  首先是我们开展研究的一个大背景,通过我们的观察,人们通过互联网进行医疗方面信息的搜索变的日益流行,我相信在座的每一个来宾也是这样的,当我们的身体有些不舒服或者是家人身体不舒服的时候,我们第一个要做的事情可能不是去找医生,我们先做的事情先从网络上搜索一下自己的症状,根据搜索的结果来判断自己是不是生病了或者是生了什么病。

数据质量管理国际峰会演讲嘉宾李胜利分享内容

  这个来自于美国一项调研的报告,这个调研报告显示,在任意一天通过谷歌去问健康医疗方面信息的人比去通过医生去问健康医疗信息的人多得多,这里有两个数据。第一个,61%美国成年人会通过网络来获取医疗信息。第二个,他们其中65%会使用搜索引擎。换句话说搜索引擎对于用户在医疗方面的决策有很大的影响,这个决策一方面可能是人们会通过搜索引擎获得的信息来判断自己是不是生病了,判断自己生了什么病,这个会影响到他们下一动治疗方案的设定。

数据质量管理国际峰会演讲嘉宾李胜利分享内容

  这样的影响它究竟是正面的影响还是负面的影响,这儿有另外一组数据,46%用户在完成搜索以后并没有进一步找医生做咨询,说明这46%的用户他们在搜索了自己的症状,他们可能会通过信息来判断自己没有生病或者是通过网络信息来对自己做了一个治疗方案的制定,如果他们搜索到的信息是可靠的,是高质量的,是可信的,无疑可以节省用户大量的时间和精力不用去医院挂号、排队、门诊,但是如果从另外一个角度来想如果他们从网络上获得的信息本身是不可靠的,是低质量的,甚至是虚假的信息,会带来负面的效应非常大,可能使得用户本来是得了严重的疾病但是延误了最佳的治疗时机,最严重的后果会伤及生命。

  这儿有一个很有名的案例就是两年前的魏泽西事件,魏泽西是西安电子大学的学生,他在大二的时候发现患上滑膜肉瘤,通过百度搜索他到武警北京市总队第二医院来提供的尝试肿瘤生物免疫疗法,他们声称这个美国广泛应用的,并且和斯坦福大学合作,他相信了这个疗法,但是他没有想到的是这个疗法在美国早已经被淘汰了,他们所声称的与斯坦福大学的合作也是虚假宣传的,最后这个事情是一个非常悲剧的结尾,魏泽西在2016年就去世了,延误了非常好的治病时机导致了这么一个结果,魏泽西生前在知乎发了一个帖子,引起了轩然大波,在社会上对于百度的医学信息竞价排名也受到了广泛的质疑,这个例子可以看到通过网络搜索获得的医疗信息,如果反馈的是低质量信息,它的负面影响会是非常大的,可能会伤及人的生命。

数据质量管理国际峰会演讲嘉宾李胜利分享内容

  这样的背景下我们决定开展这样的研究,我们希望判断搜索引擎它所反馈医疗相关的信息是高质量还是低质量,我们要做这样的一个评估,怎么评估?是根据美国的另外一项调查报告,人们使用搜索引擎有一个非常普遍的行为,人们往往只会看第一页或者是第二页的信息,第三页之后大家就不怎么看了,即使在第一页上排到第一、第二位的搜索结果受到的关注度也要远远高于排在后面的关注结果,我们这个研究展开要看看搜索引擎是否把高质量的结果放在前面,低质量的结果放在后面,搜索引擎对于医疗网站的排序是不是跟医疗水平的高低是一致的,如果是一致的,那我们就认为这个结果是可靠的。

  这有几个因素,会把低质量的网站排在前面。

  第一,大部分的用户会搜索一些关键词登录一些网站,这些网站点击率高,就会被排在前面,这是由搜索引擎的算法导致的,大量的用户会搜索糖尿病,这个可能会链接到一些论坛他们会点击登录这个论坛,这个论坛由于它的搜索量点击量比较大,就会被谷歌排在前面,由于搜索引擎的算法所导致的。

  第二个原因是低质量的网站可能会通过SEO技术来提高自己的排名。

  第三个就是竞价排名的影响,有一些公司对自己的关键词点击一次付出搜索引擎多少钱,这个也会把低质量的排在前面。

研究方法

数据质量管理国际峰会演讲嘉宾李胜利分享内容

  这个是我们研究所用到的方法

  首先我们做的第一个步骤,采用了美国非常权威的医疗数据库National Library of Medicine’s MedlinePlus,它上面包含了2069个医疗名词,这些医疗名词有的是疾病名称,有的是症状名称,这些名词非常接近于用户搜索使用的关键词,比如说腹痛,我们研究基于英文用的是abdominal pain,对于这2069个名词,每一个进行谷歌搜索,我们只取第一页的返回结果,每一页包括十个搜索结果,我们之所以这么做,我们认为用户他们的关注度基本上只集中在第一页的反馈结果,在对第一页的结果进行处理,我们只保留organic结果,organic结果指的它不是一个广告的结果,广告的结果是sponsored,这个商家是付了费,这个网站是付了费所以把它排在前面,我们是去掉了广告结果,在谷歌广告的结果是有一个标识,我们认为去掉广告的结果对于研究是没有影响的。

  接下来一个点,我们怎么去评价网站,什么样的网站是高质量,什么样的网站是低质量,我们采用的是第三方评价方法,看看一个网站是否被HON(英)或者是(英)这两个美国非常权威的医疗数据库是不是被他们所收录,通过这个方法来判断一个网站是不是高质量的。

  2069个名词总共返回了5249个网站,根据数据库的收录情况,返回的网站分为三种情况,第一种情况我们所要研究的网站,所要评价的网站它是被这两个数据库所收录的。第二种情况我们所要评价的网站虽然没有被数据库收录但是被数据库引用了,引用的意思是数据库所收录的某些网站会链接到我们要评价的网站。第三种情况我们待评价的网站既没有被引用,也没有被收录。对于高质量的网站定义就可以有两种方法,一种我们可以定义为只有被这两个数据库所收录的网站才是高质量的。还有一种或者被他们收录,或者被他们引用都是高质量的,这两种方法在医疗信息质量领域的研究是被广泛认可的。

研究结果

数据质量管理国际峰会演讲嘉宾李胜利分享内容

  这个是我们的一个研究结果的展示,首先我们看到的是整体信息质量,对于疾病不分类,所有疾病放在一起来看,横轴就是一至十,第一页的搜索结果的位置,纵轴,它前段的位置包含了百分之多少高质量网站,第一个位置它前一位置包含了多少个高质量网站,红色点我们看的是网站或者被收录或者是被引用都被定义为高质量网站,这种定义方法第一个位置是54%是高质量的网站,如果我们看绿色点,只看被两个权威数据库所收录的网站定义为高质量网站,高质量的比例就是51%,前二就是60%,57%,前三的搜索结果就是63%,59%,后面基本上也差不多,我们也判断除了第一个以外,基本上红色的这条线略高于60%的结果,绿色这条线略低于60%。第一个之所以比较低,后来我们做了更细致的研究发现它的原因是因为谷歌对每一个名词给出的第一个搜索结果是来自于维基百科,维基百科是不被这两个权威医疗数据所收录,反而会导致比较低的比例。

  综合来看,第一页结果平均60%,前十个搜索结果,60%是高质量的网站,这个我们可以说它的信息质量还是不错的,谷歌在医疗信息搜索方面还是比较可靠的。

  接下来看的是分类别的信息质量评价,把疾病分为44大类疾病,对每一个种类分别来看谷歌的表现。

  一个指标是不够的,我们采用了两个指标,第一个是quality proportion,谷歌所返回的第一页的搜索结果它包含了百分之多少高质量网站。第二个采用的是平均正确率的衡量指标,衡量指标衡量的是排序,第一个指标判断的是第一页十个搜索结果里面有五个是高质量结果,排在前面和排在后面的结果是不一样的,平均正确率我们来看搜索引擎是不是把高质量排在第一页的前面还是排在第一页的后面,这是对于44类疾病的医疗信息返回的结果。

数据质量管理国际峰会演讲嘉宾李胜利分享内容

  横轴是平均正确率,纵轴是前十个结果之中大概有百分之多少的搜索结果,第一个大部分比较靠中,聚集在这一块,说明对于大部分种类疾病谷歌的表现还是可以的,不算太高也不算太低。

  这儿有几个例外,一个是右上角,它这两个指标它的排位都非常高,谷歌对于这个疾病的搜索返回的信息质量结果是非常高的,它是糖尿病,也就是谷歌对于糖尿病搜索的结果是非常高的,这个原因可能因为美国他的肥胖是一个很大的问题,可能美国人比较关心糖尿病或者是得糖尿病的人比较多,导致搜索引擎在这方面的质量做的比较好一些。左下角两个指标排的都非常低,表现的非常差,是中毒或者是环境污染、水污染所导致的疾病。谷歌对于这个种类表现的也是非常差的,我们可以看到它的高质量的比例可能是低于40,这样的一个趋势。

  靠上面一点的,这些绿色三角疾病种类它的表现也是不错的,它的表现相对也是不错的,我们可以看一看有哪些,最上边的它的quality proportion大概是高于65%,这个疾病是癌症,谷歌对于癌症的搜索质量是很高的,下面稍微低一点是内分泌疾病,再下面一点是肺部呼吸系统的疾病,对这些疾病谷歌的表现也是很不错的,也是能够给大家反馈很高质量的搜索结果。

  下面这些相对质量比较差的,我们看看有哪些,最左下角是我们知道外国人比较注重心理方面的疾病,他们在社交方面有问题或者是家庭成员之间的相处有问题,他们都会认为这个是疾病,对于这一类疾病谷歌所反馈的信息质量是很低的,我们看到只能说是略低于30%,这个指的保健营养生活方式,人们可能通过谷歌去搜索哪些生活方式更健康,怎么饮食更健康,这方面谷歌所反馈的信息质量也是不太高的,下面一个指的就是辅助医疗,康复医疗,有一些按摩、针灸,谷歌所反馈的信息质量也是相对很低的。

  从这一上一下又可以总结另外一个趋势出来,谷歌对于上面这些实实在在发生在身体上的疾病,比如说糖尿、癌症、内分泌疾病、肾病这些疾病它的表现是比较高的,它给的信息反馈是靠得住的。对于心理方面的疾病,预防治疗,生活方式,营养康复对于疾病我们都是希望对疾病起到预防的作用,这一类它的表现是比较差的。

研究启示

  我们的研究对于各方带来的启示。

  第一点,谷歌整体反馈的医疗搜索信息质量还是不错的.换句话说作为用户我们拿它来搜索作为自己家庭医生的替补还是靠谱的,靠得住的,我们可以放心去用,但是需要注意的是对于不同的类别,谷歌的表现是不一样的,对于某一些类别它返回的信息质量是不高的,不靠谱的,尤其是心理类的疾病或者是我们希望它能够起到预防作用的生活方式、营养、康复这方面的信息质量是不高的,我们对这个思考,因为心理或者是预防这方面它信息的整理本身不够规范,使得低质量网站信息有机可乘,它有更大的机会排在前面,对于搜索引擎带来的启示,他们对于这些类别他们要特别的小心,加强信息的甄别,怎么样能够把高质量的信息反馈给搜索用户。

  另外一点对于政府监管机构它的启示他们在自己的权威数据库上可能对于心理类的,对于预防类医疗这方面的定义本身不是特别的明确,不是特别有结构化,它也会导致搜索引擎所反馈的信息质量在这些类别里是相对低的,我们的研究对这三方都有一些启示,我们的研究在美国当时取得了很大的反响,在2015年是被美国权威报纸采访并且进行报道,未来我们可能会进一步在中国的环境下,用百度做同样的研究,我的汇报就到这里,谢谢。