共词分析在医学生科研中的应用

2016-09-27 08:30叶少林万朝敏
关键词:共词主题词聚类

叶少林 甘 靖,2 罗 蓉 万朝敏,2

(1. 四川大学华西第二医院儿科,四川 成都 610041;2. 出生缺陷与相关妇儿疾病教育部重点实验室,四川 成都 610041)

共词分析在医学生科研中的应用

叶少林1甘 靖1,2罗 蓉1万朝敏1,2

(1. 四川大学华西第二医院儿科,四川 成都 610041;2. 出生缺陷与相关妇儿疾病教育部重点实验室,四川 成都 610041)

共词分析是一种重要的科研方法,在国内外已被广泛应用于许多研究领域。通过SPSS、UNCIET、EXCEL这些软件共同组成了包含关键词的方阵,对经常出现的词语相互间的关联进行研究,进而展现出热点存在的关系,把他们展现在大众的视线下,接着掌握上述学科的框架和它的走向。从医学的层次来看,共词分析研究应用相对较少,本文将初步介绍共词分析在医学科研中的运用,以期为广大医学生提供一种新的科研利器。

共词分析;医学教育;科研

一、共词分析的内涵

共词分析问世于上世纪70年代[1],历时四十多年,它得到了长足的发展,在信息的检索及其系统、信息科学、图书馆管理、物理等许多领域,取得了重要研究成果,但在医学领域科研方面,共词分析研究应用相对较少,这为我们广大的医学生提供了一个很好的科研平台,让他们除了做基础实验研究及临床调查研究以外,还能学习到医学情报学的研究。

共词分析方法是基于统计学基础的一种能够对当前所有的研究领域中热点现象以及该领域的结构特征做出分析的一种方法。它的中心思想是利用该研究领域中热点词汇之间的联系来对该领域的发展方向以及发展进程做出预测与估计。如果该领域有一个可以将该领域所有研究专家的研究方向进行联系的一个词汇,那么在所有的涉及到该领域的相关文献中该词汇都会出现,这样就可以利用相关软件将抽象的关系可视化,展现该学科的研究热点及热点之间相互联系,据此可以掌握到该研究的研究构造和它的事物进展趋势的相关知识[2-4]。大多数人认为当两篇文章的中心思想之间的联系越紧密时候,那么这个短语就会在这篇文章中更加频繁地出现。于是,一些有关联性的词语组成的共同词语的网络(简称共词网络)便是由能够表达一篇文章中心思想的词语每两个之间出现的频率所统计得到的,中心思想内容之间的亲近和疏远关系可以通过网络之内节点的距离长短来反映。共词分析的原理就是上面所描述的内容。它的过程的就是利用包容系数,聚类分析和其他的统计分析方法,简化以文章中心思想词语作为分析对象间重复复杂的共词关系,并且以数值、图形的方式直观的表现出来。使用共词分析不仅可以研究作者的情况,也具有以上所叙述的功能。可以使用共词分析法对文献情报进行研究分析,大致的可以分为六个阶段:①确定分析研究的问题;②选取出现频率比较高的词汇;③组建一个共词矩阵;④针对共词矩阵进行战略坐标分析、聚类分析、外部链接强度分析及绘制关键词社会网络共现分析图[5,6]。其中最后一步尤为重要,是体现研究结论和价值的点睛之笔。

二、共词分析具体步骤

1.确定研究主题、数据库及年限

首先得明确一个自己感兴趣的主题,这样才能确定需要检索文献的核心主题词,比如:“我国婴儿痉挛研究现状——基于国内期刊的共词分析”,则核心主题词为“婴儿痉挛”或“WestSyndrome”[3];“我国儿童癫痫最新研究现状调查分析——基于国内研究的共词分析”,则核心主题词为“儿童癫痫”[4];“近10年国内与国外儿童结核性脑膜炎研究论文的可视化研究”,则核心主题词为“儿童结核性脑膜炎”。其次,需明确检索的数据库。如是中文文献,建议选择“中国知网”、“维普”、“万方数据库”等,可以同时查询多个数据库,通过endnote等工具去除重复文献;如果是查阅外文文献,建议选择“pubmed数据库”,同时我们可以将国内外的资料进行对比研究,以发现国内外研究存在的差距和不足。年限的选择无特别要求,可以是从该学科刚起步时开始,以此总结学科的发展历史;也可以是最近10年,甚至近5年内该学科研究的发展情况。

2.词频统计及高频关键词的确定

收集好文献资料后,将所有文章内的关键词分列现在Excel中,然后将同义的关键词进行规范,像用“结核性脑膜炎”来代替“结脑”,将“核磁共振”置换为“MRI”,“促皮质激素”置换为“ACTH”,“伴有中央颞区棘波的小儿良性癫痫”置换为“BECT”等。把上述的关键词放置在新进新建的表格里,接着,把剩余的行数全都删掉,下一步把一张数据透视表插进去,进而算出它的词频,根据得出的结果把它们按从高到低的顺序排列。找出高低频词语的分界线,主要使用Donohue1973年提出的能够通过词汇出现的频数对词汇的重要性进行判断的公式 对得到的所有词汇的频数进行热点判别[7],(其中T为高频词阈值,I1为词频为1的关键词数目)将词频≥T的关键词归入高频关键词。但有时实际情况和该公式的计算结果有出入,以文献【3】为例:根据上述结果可得,存在324个关键词频率为1,则I1=324;结果为T=24.4,统计词频≥25,算出有10个,依次是“婴儿痉挛”、“癫痫”、“脑电图”、“儿童”、“ACTH”、“高度失律”、“癫痫药物”、“痉挛发作”,不过上述的不可以以偏概全地展现中国的整体形势,所以把词频≥6的当成高频词,总计43个[3]。不过,具体问题具体分析,还应向多位该研究领域资深的老师请教确定。

3.构建共词矩阵

根据上述的表格进行分析,排除不属于高频词汇,把多余的行数和不全面的词条删减掉,接着把各文剩下的高频词汇进行配对,举个例子,假使有一个文章还剩下了“A、B、C、D”这四个高频词,那么,就可以把它们配对成如下的六对:AB、AC、AD、BC、BD、CD,并对余下所有文章均按此法操作,然后按列排列在新的EXCEL表中保存。最后,对上述高频词对交叉复制,插入数据透视表(交叉列联表),即可生成共词矩阵。此方法十分耗时、枯燥和机械。中医大教授崔雷编纂并出版了一套书,分析系统:“BICOMB”[8],该系统能十分便利地将CNKI、PUBMED、万方的文献数据中的高频关键词共词矩阵列举出来,但使用该系统时应注意其检索文献的灵敏性与特异性,建议针对文献的筛选最好在该研究领域资深的老师指导下进行。同时需注意该系统不能检索维普等其他数据库的文献。

4.聚类分析

高频的关键词聚集在一起的而产生的结果可以利用以上关键词间的亲密度,进而反应出重要的主题词的探究特色。通过这种将物理或抽象对象集合分成的统计学办法,将联系紧密的关键词汇集在一个集体。关键词聚类剖析时,应该首先从发挥主要作用的关键词形成聚类;然后,再从聚类里的关键词及其相类似的关键词组合在一起,形成一个全新的聚类。关键词之间类似度越高,其之间的间隔就越小;反而言之,间隔就会比较远。把关键词的相异度矩阵传送到21.0软件中,采用系统聚类、离差平方和法、离散数据种类之中的斐方方式实行聚类剖析。离差平方和以方差剖析理念为基础,得类之内的关键词之间的离差平方和使其尽可能达到最小值,种类间的离差平方和尽可能达到最大值,进一步实现分离类别的功效。离散数据的分类能够设计不同类别数据之间的间隔大小,Phi方度量抵消了Chi方度量中中维数的的作用[9]。与因子剖析的效果及现实状况相联系,就可得出探究热点的聚类树状型图像如图1所示。从图1中能够得知其一共被分成两大类别,第一类能再分成三个小的类别,1、5,12、8、7、3,10、2、11、13及6、4、9之间联系紧密。通过针对出现频率高的主题词共现聚类剖析,人们能够客观的发现其方面的探究热点,可是仍然没有办法得知其各个热点之间的联系。因此,我们还需要通过外部链接强度及战略坐标来进一步分析。

图1 高频关键词聚类

5.外部链接强度及战略坐标分析

依照聚类剖析的有关成果,得以算出各个类别的外部链接及外部链接强度。外部链接指数指在一个学科领域内,某主题类团与其他主题类团间的知识连接数量,反映该主题与其他主题进行知识交叉融合、渗透创新的总体水平。该值越大,说明主题整体与外部关联越密切,知识的范围拓展的越宽,将条件反过来设置,也会得出这样的结论。使用Ucient6.0软件中的Netdraw性能时依照聚类之间外部链接之和将会产生各个类团描绘而成的类间联系图像。连接线的宽窄表现出其类别间的联系强度,连接线越宽,则类别间的关系就越紧密,如图2[6]。从图2能够发现D、C、E三者的关系最为密切,可是其他的类聚之间关联度并不是很大,C外部链接情况与D基本相似。可是E和其他类聚间的关联较为均衡,位于各个聚类之间的节点处,即使A和B产生利独立的聚类,可是其他聚类间的联系不是很密切,相对而言探究较为独立。

依照聚类剖析的关联结果单独对其余类别的向心度及密度进行了算数,描绘出各类探究聚类的策略坐标图纸。以向心度为X,以密度为Y。向心度即为表现一个词汇集团以及其余得到词汇集团间的的关联强度,选取各个词汇集团团和其余词汇集团共同出现的次数只和作为此次词汇集团的向心度。密度是用以测取词汇集团间共同出现的强弱,选取给词语集团内部关键词显现的次数的平均值视为此词汇集团的密度。战略坐标图像的坐标零点是各个聚类向心度及密度的均值,其中各类象限的表达内容如图3所示。第一象限中的主题拥有高密度和高向心度,说明其发展成熟且为领域核心;第二象限中的主题拥有高密度和低向心度,说明其发展成熟但并非领域核心;第三象限中的主题密度和向心度都较低,说明其发展不成熟且处于领域边缘;第四象限中的主题拥有低密度和高向心度,表明即使其成长的并不是很完整,可是却能够成为其研究的核心[9]。

图2 外部链接强度

图3 战略坐标图所示意义示意图

6.绘制高频关键词社会网络共现分析图

最后使用Ucinet6.0的Netdraw功能,针对出现频率较高的主题词共现矩阵实现社会网络的描绘,产生由主要主题词构成的共同词汇网络图像,网络中节点的距离就能够反应关键内容的亲密度,在下列图像的构成之中,陈列距离离中央节点越近则表现出整体的关联网络之中越位于重要位置[10]。除此之外,弹簧嵌入聚类计算方法实行陈列,针对各个节点的大小及连接线的宽窄,实行赋值,高频率的节点对应的就偏大,关联紧密的中央词语连接线就较为偏宽,如图4所示。能够从图4中得出G就是这项探究的核心主题词,同时周围散布了AI、W、K、D、I、R、H、X等研究热点,G与AI、W、K、T、R等联系紧密,相对而言,在F、AC、V、U等诸多层面上的探究还很单薄,通常处于边界或新型的探究畛域,这也正是研究者们努力突破的畛域。

图4 高频关键词社会网络共现分析图

三、小结

通过本文的介绍,希望能让大家能够初步了解共词分析的制作流程。共词分析为医学生科研打开了一扇大门,对于某个学科的发展情况,学科研究构架及现状,某种疾病的诊断、治疗、研究热点、发展趋势和方向以及某个学科在国内、国外各个医疗科研机构开展情况都可以通过共词分析法得以实现。对医学生将来从事某专业更深入的学习与研究提供了很好的前期信息和参考依据。

[1] HuangJ,TangJ,QuY,etal.MappingtheKnowledgeStructureofNe onatalHypoxic-IschemicEncephalopathyOverthePastDec ade:ACo-wordAnalysisBasedonKeywords[J].JChildNeur ol,2016,31(6):797-803.

[2] 鲍珊,等.新生儿黄疸研究现状的共词分析[J].中国当代儿科杂志,2014,16(8):820-823.

[3] 叶少林,等.我国婴儿痉挛研究现状——基于国内研究的共词分析[J].现代预防医学,2016(4):627-630.

[4] 甘靖,等.共词分析方法分析我国儿童癫痫最新研究现状[J].中华实用儿科临床杂志,2016,31(1):73-75.

[5] 岳增慧,等.基于共词分析的医学伦理学领域主题热点及演进态势[J].中华医学图书情报杂志,2016(1):43-51.

[6] 李一飞,等.基于多元统计和社会网络分析PubMed数据库儿童心血管学科知识发展可视化研究[J].中国循证儿科杂志,2014,9(2):89-100.

[7] 包惠民,等.CNKI数据实现ucinet共现分析的方法及实证分析[J].软件导刊(教育技术),2012(1):91-93.

[8] 曹霞,等.合著网络评价指标与文献计量学评价指标相关性研究[J].中华医学图书情报杂志,2016(2):20-26.

[9] 袁晓园,等.基于共词分析的我国医学信息学国际发文热点研究[J].医学信息学杂志,2014,35(4):8-14.

[10] HongY,YaoQ,YangY,etal.Knowledgestructureandthemetren dsanalysisongeneralpractitionerresearch:ACo-wordperspective[J].BMCFamPract,2016,17:10.

Applycation of Co-word Analysis in the Medical Scientific Research

Ye Shaolin1, Gan Jing1,2, Luo Rong1, Wan Chaomin1,2
(1. Department of Pediatrics, West China Second University Hospital, Sichuan University, Chengdu 610041, China;2. Key Laboratory of Birth Defects and Related Diseases of Women and Children, Chengdu 610041, China)

Co-word analysis is an important research method which has been widely applied in many research fields at home and abroad. Excel, SPSS and Ucinet 6.0 were used to make analysis of the relationship between different key words and generate diagrammatic representation which is applied to present the framework of discipline and the direction of development. As far as medicine research is concerned, co-word analysis is randomly used. This article is aimed to introduce the application of co-word analysis in medical research in order to provide a new research method for medical students.

Co-word analysis; Medical education; Scientific research

2016-05-26)

叶少林(1987-),女,护师。

甘靖。

国家临床重点专科(儿科新生儿专业)建议项目(1311200003303)资助;教育部科研基金(20110181130002,IRT0935);国家自然科学基金(81501301)。

猜你喜欢
共词主题词聚类
基于K-means聚类的车-地无线通信场强研究
基于突变检测与共词分析的深阅读新兴趋势分析
基于Matlab的共词矩阵构造
基于高斯混合聚类的阵列干涉SAR三维成像
《老年医学与保健》2017年第23卷主题词索引
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法
中国文化在国际社交媒体传播的类型分析——基于共词聚类的研究
基于共词知识图谱技术的国内VLC可视化研究
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词