近十年国外信息质量研究知识图谱分析

2018-05-14 12:19白献阳赵若静
河北科技图苑 2018年6期
关键词:信息质量可视化分析知识图谱

白献阳 赵若静

摘要:信息质量成为国内外的研究热点,分析国外信息质量研究热点以及发展趋势,可以为我国的相关领域研究提供借鉴。论文利用CiteSpace,采用词频统计、聚类分析、共现分析法,对国外信息质量研究力量、研究热点与研究前沿进行可视化分析。经研究发现,国外研究热点包括网络媒体、用户满意度、信息质量管理等,研究前沿有用户信息服务质量、网络媒体评价影响、虚假信息风险、信息质量理论模型与实践等。

关键词:信息质量;知识图谱;可视化分析;CiteSpace

1引言

信息质量是用户判别信息产品是否适用的标准之一。信息质量问题是普遍存在的,而且有时甚至造成严重后果。因此在过去的十年中,信息质量的研究得到了学术界的重视,一是为了解决越来越多的信息质量问题,二是为了防止受信息质量影响而造成严重的负面结果[1]。

国外信息质量研究起步较早,产生了大量的研究成果。分析国外信息质量研究热点以及发展趋势,可以为我国的相关领域研究提供借鉴和学习。论文采用知识图谱分析软件——CiteSpace,对国外近十年信息质量研究文献的作者、科研机构、高频词等进行可视化知识图谱分析,梳理国外信息质量研究领域的发展脉络、核心主题和研究前沿,并对这种新的学科交叉研究进行了详细分析。

2数据来源与研究方法

2.1数据来源

论文研究的国外文献数据来源于WebofScience(以下简称WOS)。文献的原始数据包含了作者、摘要、题目、关键词、文献引文等。结合数据库收集的文献,在主题词上选择“informationquality”;设置时间的跨度为2008至2017年;语言类型选择“English”;文献类型选择“articleORproceedingspaperORreview”,获得文献4586篇。然后,选择WOS的精选可得1139篇文献;再将结果按“相关性”进行排序,接着用人工操作的方法剔除明显与本次主题不相关的数据,最终可得有关信息质量研究的相关文献为800篇。

2.2分析工具与研究方法

在目前的知识图谱软件当中,CiteSpace以强大的文献共被引分析功能而广为人知。CiteSpace是一个用于探究科学文献发展趋势的可视化软件,国内外学者广泛使用CiteSpace对各领域研究热点、研究趋势等进行分析[2]。论文主要运用聚类分析、引文可视化分析等方法,使用工具以CiteSpace为主,将筛选过的数据导入到CiteSpace中,由于受到可导出字段的限制,在所研究的英文文献里选择机构、作者及合作关系和关键词等部分进行相应数据挖掘和引文、被引分析等分析,从而把握国外该领域的现状和前沿。

3信息质量研究知识图谱分析

3.1研究力量分析

3.1.1研究区域分析

通过对研究区域分布进行可视化,可以把握国外信息质量研究领域的整体布局。从表1发文量看,可得该领域研究的高产区域集中于美国、中国台湾、韩国、英国、澳大利亚,其中以美国的发文量最多,远超出其他地区。

中心性是测度节点在网络中的重要性的一个指标,用来发现和衡量文献的重要性,并用紫色圈对该类文献(作者、期刊以及机构等)进行重点标注。中间中心性高的点往往位于连接两个不同聚类的路径上,用来确定群体的算法就是利用这个特点来区分网络中的聚类[3]。从发文中心性看,美国最高(1.03),其次分别是英国(0.49)、澳大利亚(0.21)、西班牙(0.12)等。

从中可以看出,无论是发文量还是中心性,美国都位于榜首。这体现了美国在信息质量研究领域的高热度和超高的水平。同时也说明近些年来美国在该领域的超强科研实力,远超出其他地区。

在图1中,除了美国牢牢占据该领域的核心地位之外,其周围还形成了分别以中国台湾、英国、澳大利亚、德国等区域研究中心。整体看,各国(地区)之间密切的合作联系主要以发文量较多的国家为主,而其他发文量少的地区合作有待进一步加强。

3.1.2发文机构分析

对信息质量研究的科研机构进行统计分析,可发现该领域的主要科研机构分布。利用CiteSpace对研究文献的科研机构进行合作网络分析,发文较多的机构有:CityUnivHongKong、FloridaStateUniv、NatlChengKungUniv、HarvardUniv、MonashUniv等,如表2所示。进一步分析发现,他们主要是大学和研究机构,且均为知名度较高和科研能力较强的机构。

虽然信息质量的研究阵地大部分都集中在大学和教育机构中,但这些机构的发文量较少,见表2。其中以中国香港城市大学的发文量最多,为20篇左右;其次是美国的佛罗里达州立大学(FloridaStateUniv)有18篇,中国台湾的国立成功大学18篇、美国哈佛大学(HarvardUniv)为17篇。从中心性来说,几乎全部机构都接近于0,机构间合作较少。这类机构的研究力量略微不足,而目前还没有产量多的机构出现。在机构发文量的前15名中,其中美国有6个,中国香港、中国台湾与韩国都分别有2个。信息质量研究机构图谱见图2。

3.1.3载文期刊分析

通过对载文期刊进行统计分析,找出核心期刊区,有助于后继学者利用相关研究文献。使用CiteSpace软件对该领域的载文期刊进行统计和网络分析,如表3和图3所示。信息質量研究载文量较多的期刊有:MISQUART、INFORMSYSTRES、JMANAGEINFORMSYST、INFORMMANAGE-AMSTER、MANAGESCI等,且各期刊之间的文献相互引用频次比较密集。进一步分析可知,国外载文期刊则分布在经济、电子商务、工程技术、管理科学等领域,体现了其研究的跨学科和跨领域特点。

3.1.4研究作者分析

拥有大量的学者群是一个科学领域积极发展的体现。通过CiteSpace对作者发文量统计分析,可知高产作者有:YenDC、StviliaB、AllamA、ArazyO、AljukhadarM等,见表4。进一步了解可知,这些作者在领域核心期刊譬如MISQUART、INFORMSYSTRES等发文较多,影响较大,属于核心作者,且科研成果多,对该领域的科研具有较大的贡献率。进一步观察作者所属研究机构,发文最多的YenDC是美国迈阿密大学,研究领域为電子信息系统;其次为美国德克萨斯农工大学的StviliaB,研究领域是工程科学技术。研究者发文量印证了美国的研究学者在信息质量研究上占有领先优势。

从图4可以看到,虽然研究人员的知识图谱中聚类节点较多,但是他们之间的距离很远且各聚类点间的连线也并不多,这表明了研究者虽然较多,但彼此研究却相对分散,在学术交流合作上不是很紧密,目前只有由两三人组成的小合作网。除了个别的同一机构内研究者之间有稀疏的合作与联系之外,当前的跨机构合作联系几乎没有,即现在并没出现明显的高产区。

3.1.5作者共被引分析

AuthorCo-citationAnalysis(简称ACA)即作者共被引的基本假设是当两个作者的文献同时被第三个作者的文献引用,则称这两个作者存在共引关系。两位作者共被引频次越高,则说明他们的学术关系越密切,“距离”越近。通过聚类分析等统计方法,可以按照这种“距离”将学科领域内的核心作者进行分类,并通过图形表示,以可视的方式鉴别分析学科领域内的科学共同体[4]。

从表5和图5可以得到,国外该领域共被引频次最高的作者是DELONEWH(为254次)。与作者发文量排序比较,但他本人发文量的排名在偏后的位置,这可能与其多篇文献没有收录于WOS数据库有关。DELONEWH是美国乔治亚大学的教授,主要从事对ComputerScience(计算机科学)、InformationScience&LibraryScience(信息科学和图书馆学)、Business&Economics(商业和经济学)等领域的研究。排第二的是FORNELLC(179次),他是美国密歇根大学教授,其研究主要集中在Business&Economics(商业与经济学)等,主要从经济学角度研究信息质量,采用一系列社会和经济理论探究信息质量的经济意义。FORNELLC在信息质量领域发文量不多,但被引频次与中心性较高。

由于两位学者的研究内容大多属于交叉学科,发文量又不少,他们的研究成果很容易被各个学科的信息质量研究者引用,再加上高产的作者对引用数贡献,因此两位学者逐渐成为了高共被引的作者。

3.2研究热点分析

每一篇科研文献里的关键词,都是对论文内容的高度概括。通过对关键词的可视化分析,有助于了解国外信息质量领域的研究热点,从而帮助研究者跟踪国外该领域的科学研究动向。通过对关键词进行聚类,合并相似程度较高的类别,能找到研究中的热点问题。然后对关键词进行共现分析,研究关键词之间的关系,发现研究热点可以分为几个较大聚类,从而了解主要研究结构。

使用Citespace对数据的“term”和“citereference”进行分析,选择每年出现最多的前50条记录进行研究。通过Citespace的可视化功能,可以清晰地发现信息质量领域的14个核心词汇,如表6以及关键词可视化图谱图6、高频关键词聚类图谱图7。

通过表6和图6,可以看到informationquality是整个领域的核心词且出现的频次最高,为233次;Model、quality分别出现了130次和110次,居第二位和第三位,其他的高频词还有internet、trust等。从图7可知,该领域的研究热点可以分为7个明显的聚类,主要分为三大部分:一是#0、#1,代表词汇是技术模型、管理、信息系统等,即研究信息质量管理与建模的相关问题;二是#2、#3,代表词汇为用户满意、信任、服务质量等,即研究用户满意度的相关问题;三是#4、#5、#7,代表词汇有网络搜索、网站媒体、决定因素等,即研究媒体影响因素的相关问题。

3.2.1信息质量管理模型的研究热点

“模型”与“系统”二词的使用频次,可以看出该领域比较活跃的是信息质量管理模型,如图6、图7所示。国外早期主要研究信息质量的管理(management)和建模(model)等,后侧重研究管理系统(informationsystem)、技术接受模型(technologyacceptancemodel)、麦克莱恩模型(Mcleanmodel、technology)等具体的理论研究与技术建模。信息系统成功模型是由McLean率先提出的,用来评估信息系统的价值,其中包括信息质量、用户满意度、系统使用、个人影响等[5]。这个模型指出了信息质量是评价信息系统成功与否的关键因素之一。信息质量作为信息系统很重要的一部分,因此它一直是研究热点之一。

3.2.2用户满意度的研究热点

通过图6和图7,不难看出“用户满意”“满意度”“服务质量”这几个词的使用频率之高,用户满意度很受研究者关注。满意度更多意义上是一种心理状态,一种个体对结果的主观评价。国外(尤其欧美国家)在信息质量领域的研究热点包括了用户行为(behavior、impact、decisionmaking等),以及用户满意度与用户信任相关问题(trust、useracceptance、servicequality、customersatisfaction等)。满意度影响因素研究比用户满意度作用的研究文献数量更多,包括情境化应用研究与全新视角研究等。这些研究体现了当今市场以用户为中心的发展趋势,理论研究密切关注和指导实践,这也将成为今后持续研究的热点。

3.2.3网络媒体发展与信任的研究热点

各种新兴媒体在时时刻刻、或多或少的影响着用户对各类信息的抉择与判断。随之而来关于信息质量在社会媒体发展的中作用研究也逐渐成为研究热点。信息质量被认为是衡量网络社交平台成功的重要标志,一些学者证明了信息质量是影响博客、微博等平台用户满意度与使用行为的重要因素[6]。国外对媒体影响因素的研究主要集中于互联网、信息检索等(web、online、informationsearch、performance、perspective),如图6和图7所示。这一聚类的主要研究方向是有关网络媒体与用户行为数据的信息质量,确切地说,该聚类的研究方向为提高用户在网络检索中获取的数据质量。这个方面与用户满意度的热点都体现出信息质量应用的相关领域,而这对于信息质量来说则是一个新的研究方向。

3.3研究前沿分析

关键词的词频变化可以衡量某领域的研究前沿。CiteSpace的膨胀词探索算法,可以将国外“信息质量”领域中频次变化率较高的词探测出来,继而得到国外该领域研究前沿的可视化图谱。在CiteSpace中,将NodeTypes设置为Keyword,在TermType中选择BurstTerms,视图以“Timezone”方式显示,得到国外该领域研究前沿的可视化图谱,如图8所示。

运行CiteSpace软件绘制网络时区图,其中包括了150个左右的节点以及相应的连线。从施引文献摘要里挑出专有名词并采用对数似然率算法对群组重命名,然后调节群组我们可得图8所示的共被引网络时区图。

网络图谱大致分10个群组,图8显示了不同的群组出现的时间,从中可知研究网络集中性较强,研究分支较多,而此类知识图谱中的节点间又展现了很高的联系感,且处于知识群组交叉处的关键节点,对群组间的关联来说是承接的用处。结合图8可以得到“结构模型”(structuralequationmodel)、“社会媒体”(socialmedia)、“服务质量”(servicequality)、“口碑”(wordofmouth)、“感知风险”(perceivedrisk)、“实证检验”(empiricaltest)等领域是最新的国外信息质量研究分支;而“信息质量”、“用户满意”、“信息搜索”则为最初国外研究的切入点。

通过对上述几方面的分析,以及近十年的研究前沿可视图所呈现的特征,可以预测今后几年该领域的研究趋势为:用户信息服务质量、自媒体评价影响、信息风险的预测、理论模型与实践检测。

3.3.1用户信息服务质量

用户满意度的研究在近几年内呈现持续上升趋势。由图8可知,国外频次变化率较高的词中均含有“用户服务”(userservice),其包括“信息获取”(availability)、“服务质量”(servicequality)等,说明此阶段以及未来的研究前沿中以用户为中心的研究方向得到了大部分学者的认同,是信息质量领域今后研究的一个重要趋势。随着互联网的快速发展,用户在网络中的行为活动越来越重要,且随时可能会产生影响到他人或者自身的不良后果。因此,用户满意以及信任成为了多数网络平台以及众多研究学者的考虑因素之一。

3.3.2网络媒体信息质量评价

网络媒体信息质量评价及其影响的研究将成为该领域研究的一个新趋势,包括如何利用自媒体的传播度来对信息的评价走向进行控制等,使自媒体对信息质量的积极作用能更好地被利用。由图8可知,自媒体评价与影响的膨胀词中含有“社会媒体”(socialmedia)、“服务质量”(servicequality)、“口碑”(wordofmouth)、“透明度”(transparency)、“手机银行”(mobilebanking)、“虚拟社区”(virtualcommunity)等与此前沿相关的膨胀词。因此这将会成为未来的研究重点方向之一,因为随着网络信息来源渠道的快速增加,各平台的信息质量评价与口碑成为了用户进行选择的一个重要考虑因素。

3.3.3虚假信息风险

随着人们对生活各方面的重视,信息质量与人们日常生活紧密相关的研究将是该领域今后研究的另一重要趋势。这方面包括了信息风险、网络欺诈、虚假信息等方面的具体研究。由图8可知,近年来国外该领域的膨胀词中包括了如“感知风险”(perceivedrisk)、“健康保健”(healthcare)等词。其中参差不齐的健康类信息质量,影响了用户获取真实医疗信息,增加了医务人员使用网络健康风险的几率,甚至恶化医患双方关系;而金融消费类的信息质量消极影响更为繁多,譬如在线购物网站由于隐瞒货物残缺问题而增加了用户的感知风险等。

3.3.4理论模型与实践验证

除了以上三个近年的热点外,信息质量的理论模型与实践的研究是信息质量领域今后仍要坚持的一个内容,由图8可知,国外频次变化率较高的词有“实证检验”(empiricaltest)、“平台框架”(framework)等理论模型方面的膨胀词,以及“技术接受”(technologyacceptance)、“技术”(technology)、“元数据”(metadata)等实践验证方面的膨胀词。虽然信息质量领域理论研究已经得到了丰富的研究成果,但也存在不足,未来不断的理论研究新成果会为相关领域研究提供重要的参考依据。

4研究结论

选取“信息质量”作为研究主题,使用了分析词频、聚类分析等方法,借助CiteSpace作为分析工具,对国外信息质量领域进行了学者、机构、国家/地区、高频词可视化分析以及对研究前沿进行膨胀词分析。

第一,论文产出较高的个体学者有YenDC、StviliaB等,共被引頻次最高的作者是DELONEWH;虽然研究学者众多,但学术合作不太积极;通过统计该领域区域及机构发文量及绘制合作图谱,可知他们在研究水平方面差距较大,高等院校是信息质量研究的领先者,院校之间的研究交流合作也相对较多。第二,研究主要热点领域在经济学、管理学、医学、环境科学、计算机科学、信息管理学等。第三,国外研究热点是研究信息质量管理与建模的相关问题、研究用户满意度的相关问题、研究网络媒体的相关问题。第四,国外该领域的研究前沿处在动态变化中,研究前沿在于用户信息服务质量、网络媒体评价、虚假信息风险、信息质量理论模型与实践等。

虽然本文使用可视化方法,能把握国外该领域的大致研究热点,预测其发展态势,但也存在仅用CiteSpace作为分析软件较为单一,数据分析的结果信度有待完善;研究的数据来源仅局限于WOS核心集,有待进一步扩展。

参考文献

[1]宋立荣.网络信息共享环境下信息质量约束的理论思考[J].情报科学,2010(4):501-506.

[2]李杰,陈超美.CiteSpace:科技文本挖掘及可视化[M].北京:首都经济贸易大学出版社,2016:3.

[3]陳超美.CitespaceⅡ:科学文献中新趋势与新动态的识别与可视化[J].情报科学,2009(3):401-421.

[4]百度百科.ACA[EB/OL].[2018-02-27].https://baike.baidu.com/item/ACA/13474982fr=aladdin.

[5]王长林,陆振华,冯玉强.国外评价信息系统成功研究述评[J].哈尔滨工业大学学报(社会科学版),2010(6):68-73.

[6]陆伟,查先进.情报学研究进展[M].武汉:武汉大学出版社,2017:55-144.

AnalysisontheKnowledgeGraphofForeignInformationQuality

ResearchinRecentTenYears

BaiXian-yangZhaoRuo-jing

Abstract:Informationqualityhasbecomearesearchhotspothomeandabroad.TheanalysisofforeigninformationqualityresearchhotspotsanddevelopmenttrendscanprovidereferenceforrelevantresearchinChina.BasedonCiteSpace,thepaperuseswordfrequencystatistics,clusteranalysisandco-occurrenceanalysistovisualizetheresearchstrength,researchhotspotsandresearchfrontiersofforeigninformationquality.Theresearchfindsthatforeignresearchhotspotsincludingonlinemedia,usersatisfaction,informationqualitymanagement,etc.Thefrontiersofresearchincludeuserinformationservicequality,networkmediaevaluationimpact,falseinformationrisk,informationqualitytheorymodelandpractice.

Keywords:InformationQuality;KnowledgeGraph;VisualAnalysis;CiteSpace

猜你喜欢
信息质量可视化分析知识图谱
我国职业教育师资研究热点可视化分析
声波吹灰技术在SCR中的应用研究
可视化分析技术在网络舆情研究中的应用
国内外政府信息公开研究的脉络、流派与趋势
基于会计信息质量论财务会计的局限性
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
浅谈秘书信息工作的重要性
基于知识图谱的智慧教育研究热点与趋势分析
会计信息质量对企业经营管理的影响