知识图谱研究概况及其在中医药领域的应用

2017-07-03 13:38李新龙刘岩何丽云刘保延张艳宏
中国中医药信息杂志 2017年7期
关键词:图谱可视化中医药

李新龙,刘岩,何丽云,刘保延,张艳宏



知识图谱研究概况及其在中医药领域的应用

李新龙,刘岩,何丽云,刘保延,张艳宏

中国中医科学院,北京 100700

作为科学计量学和信息计量学的新发展方向,知识图谱技术已经广泛应用到金融、工业、医学等领域,成为真实世界研究中的热点问题。本文就知识图谱的概念和特点、绘制流程、现有软件及其在中医药领域的应用现状、发展前景等进行文献梳理,以期为中医药领域知识图谱相关研究提供参考。

知识图谱;中医药;应用前景;综述

随着2012年谷歌第一版知识图谱的发布,特定领域的知识图谱构建成为真实世界研究中的热点问题。从搜索引擎优化,到新药发现,知识图谱在学术界掀起了一股热潮,并渗透到金融、工业和医学等领域。这种以科学学为基础,涉及应用数学、信息学及计算机学等多学科的可视化技术,成为科学计量学和信息计量学的新发展方向。本文就知识图谱的概念、特点及其在中医药领域的应用现状、前景进行梳理,以期为中医药领域知识图谱相关研究提供参考。

1 知识图谱概念及特点

1.1 知识图谱的概念

在知识图谱的定义上,陈悦等[1-2]从其功能角度进行阐释,认为知识图谱能够可视化地描述人类随时间拥有的知识资源及其载体,绘制、挖掘、分析和显示科学技术知识以及它们之间的相互联系,在组织内创造知识共享的环境以促进科学技术研究的合作和深入。杨国立等[3]从理论和方法层面,将其定义为把应用数学、计算机科学、科学学、信息科学等学科的理论和方法与科学计量学引文分析、共现分析、社会网络分析等方法结合,用可视化的图谱形象地揭示科学发展进程和结构关系的一种研究方法,属于科学计量学的范畴。

杨思洛等[4]提出知识图谱有广义与狭义之分,广义上可包括生物的基因图谱、教育教学中的认知地图、探索太空的天体图、描绘地形的地理信息系统(GIS)图、模拟人脑的神经网络图、各种金属图谱等;狭义的知识图谱主要是运用文献计量学方法,通过文献知识单元分析来可视化科学知识的结构、关系与演化过程,包括“科学图”“文献计量图”“文献图”“知识图谱”等。

简言之,知识图谱是随着计算机技术的发展,应用数学算法来简化知识单元结构以达到可视化知识结构关系的一种方法,是显示科学知识的发展进程与结构关系的一种图形,是一种有效的知识管理工具。

1.2 研究对象

知识图谱所描绘的对象主要包括:①从事科学技术活动和作为知识载体的人,包括科学家、技术专家、项目组、实践团体或某一知识领域共同体;②显性或编码化的知识,如论文、专利、所学课程、数据库等;③过程或方法,包括研究问题和解决问题的过程或方法、组织的业务流程,以及相关的知识投入等。

知识图谱主要源于三大领域:①计算机科学领域的数据、信息、知识与知识域可视化研究;②图书情报领域的引文分析可视化、知识地图和知识网络等研究;③复杂网络系统和社会网络分析的研究。上述领域的研究方向和内容正在走向融合[5]。

2 知识图谱绘制流程

参考国内外已有研究,目前知识图谱的绘制主要包括以下几个版块[4,6-7]。

数据检索:绘制知识图谱的基础,其数据源在传统文献数据库的基础上逐渐扩展到出版商、机构联盟等机构网站的网络日志、用户记录、点击流数据等。

数据清洗:即对数据的预处理,包括查重、勘误等,进行历时或分时段对比分析时需要对数据进行分段处理;若样本数据过大或分析目的不同,则需要进行有代表性的抽取。

构建关系矩阵:选择要分析的知识单元,如关键词、题名、作者等,构建其相互关系,常用方法有共词分析、共引分析、共作者分析、书目耦合分析、期刊耦合分析等。

数据标准化:根据数据间的相似度对数据进行标准化,常用方法有集合论方法(Cosine、Pearson、Spearman、Ochiai、Jaccard指数等)和概率论方法(合力指数、概率亲和力指数等)。

数据简化:运用因子分析、多为尺度分析、自组织映射图、寻径网络图谱、聚类分析、潜在语义分析、三角法等方法处理数据以更好地展示各数据单元。

可视化展示:是知识图谱构建过程中最重要的一环,通过运用不同的算法,调整相关参数,构建整个图谱。可通过不同模拟实现可视化,如几何图、战略图、冲积图、主题河图、地形图、星团图、簸幅图等。

图谱解读:采用历时分析、突变检测、空间分析、网络分析等方法对图谱进行解读,同时需要结合研究者的经验、知识、学术背景、学术功底等。

3 知识图谱绘制软件

目前可用于知识图谱绘制的软件非常丰富,根据主要功能可分为2类[4]:一类为通用软件,如SPSS、社会网络分析软件Ucinet和Pajek、词频分析软件Wordsmith Tools和GIS相关软件;另一类为绘制知识图谱的专用软件,如CiteSpace、Bibexcel、Gephi、VOSviewer、VantagePoint、Network Workbench Tool、NWB、Sci2 Tool、In-SPRIE、SciMAT、Histcite、GeoTime、ColPalRed、Guess、Leydesdorff、Jigsaw、Carrot等。分析各软件的特点[6,8-9]可以看出,随着知识图谱的绘制软件越来越多,一方面其支持的数据格式愈发多样,相互之间的兼容性也逐步增强;另一方面,在可视化效果方面也日趋完善,知识展示的真实度、准确度逐渐提高。详见表1。

表1 常用知识图谱绘制软件比较

4 知识图谱在中医药领域的应用

目前知识图谱的研究中,国外学者主要集中在2个研究方向[10]:部分偏于技术研究,包括可视化工具和算法的开发;部分以应用为主,利用科学计量学理论及相关方法、知识图谱软件等进行分析研究。国内研究也可分为2个方向:部分以科学计量学为理论基础,利用可视化方法研究科学学与管理学、科学技术合作等领域;部分以电子资源数据库为数据源,通过可视化方式展示某一学科的研究前沿和发展动向。

4.1 应用现状

医学领域各学科中采用知识图谱理论与方法进行的研究尚处于起步阶段,中医药领域已有部分学者开展了相关研究。

在学科层面,赵蓉英等[11]以Web of Science为数据来源,运用CiteSpace对中医研究领域的研究热点进行了可视化探索。徐浩等[12]以我国医药卫生领域中文核心期刊文献为数据来源,对我国中医学科交叉领域的研究热点进行了可视化分析,但研究仅限于中医学与医药卫生领域之间的合作。杨秦等[13]采用共词分析及社会网络方法对中医外科疮疡领域的研究主题及分布进行了探索。

具体在疾病方面,谭火媛等[14]基于中国知识资源总库(CNKI)收录的近10年中医药治疗高血压相关文献,对前沿与热点研究进行了可视化分析。王淑斌等[15]对中西医治疗2型糖尿病的国内外研究进行了系统梳理。在证候方面,刘俊丽等[16]采用文本挖掘技术,通过数据清洗、实体抽取、构建共词矩阵并采用Ucinet软件绘制乙型肝炎热点研究知识图谱,分析了子模块中的中医证候描述及疾病名称。秦义等[17-18]基于CiteSpace软件对气虚证、血瘀证证候诊断标准的相关研究进行了可视化分析。在中药材方面,郭栋等[19]通过关键词共现网络和聚类图对中药枸杞的育种、种植、采收、加工、储存等5个领域的研究进行了热点分析。在治疗措施方面,李曌嫱等[20]对针灸治疗腰椎间盘突出症常用腧穴的演变过程及施穴治疗的变迁进行了可视化分析,胡松洁等[21]运用Ucinet软件对“五行音乐”疗法的发展脉络进行了梳理。

此外,张静[22]基于CNKI核心期刊文献关键词,探讨了中医药专业人才培养热点主题。陈姗姗等[23]对中医药传播发展的研究文献进行了可视化分析,荣光等[24]基于中医电子病历研究领域的相关文献,构建了该领域的研究者、研究机构、关键词的共现网络。

上述研究主要集中在不同领域的研究现状及热点分析,多以期刊文献为数据来源,多采用CiteSpace软件构建研究者、研究机构、关键词等信息的共现图和聚类图,从不同侧面宏观解释了中医学信息的整体结构特点。但针对特定研究目标,尚未形成一套明确的建模策略及技术,导致已有研究结果中也有差异甚至矛盾之处[5]。因此,中医药领域知识图谱理论尚处在针对各学科结构宏观概述阶段,急需解决对多层信息深度整合的知识图谱建模策略及其技术。

近年来,已有学者在中医药知识图谱构建方法与标准化流程方面进行了尝试和探索。于彤等[25]提出以中医药学语言系统(TCMLS)为框架,以中医药领域现有的术语和数据库资源为内容,构建大型知识图谱的构想,并进行了探索和实践,但尚未实现中医药知识资源的有效整合及提供全面、及时、可靠的知识服务。阮彤等[26]基于文本抽取、关系数据转换及数据融合等技术提出了中医药知识问答和辅助开药领域的知识图谱半自动化构建流程。此外,该课题组对知识图谱进行了形式化定义,详细描述了数据驱动的增量式知识图谱构建方法,同时阐述了以此方法所构建的中医药知识图谱在辅助开方领域的应用,但未涉及其它领域[27]。贾李蓉等[28]以中药知识图谱为例,从数据来源、研究内容、图形化展示等方面探讨如何构建中医知识图谱,但其应用尚局限于浏览检索方面,对多种数据资源间的映射及数据元等标准未进行详细论述。张德政等[29]提出了基于本体的中医核心知识图谱表示及其构建方法,对中医本体与知识图谱的映射方法进行了探索,为中医知识图谱的构建提供了较系统的方法流程,但对多源数据的获取技术及中医师临床实际诊疗数据的研究未进行深入研究。王华珍等[30]以中医慢性胃炎数据可视化处理为例,引入随机森林(RF)技术进行可视化前的数据预处理,根据高维中医数据的特征进行变换和降维,使数据在低纬空间呈现良好的分离性,从而增强了数据的可视化效果。

4.2 应用前景

知识图谱研究已经渗透到金融、医学和工业等领域,对知识图谱定量与定性特征的科学理解已成为大数据时代科学研究中一个极其重要的挑战性课题。结合自身知识体系的特点,中医药领域的知识图谱研究应以从事相关领域活动和作为知识载体的人(如临床医学领域的医师)、显性或编码化的知识(如症状、药物等)、过程或方法(如辨证论治等)为研究对象,运用图论、统计学、应用数学、数据挖掘等方法,研究知识之间多维网络关系及演化规律等一系列问题。

在我国,中医临床研究领域的知识图谱构建研究仍较滞后,研究大多处在术语本体领域的研究层面。知识图谱在中医药领域有着广阔的前景,如在中医药知识体系构架方面,可建立中医药知识地图系统、维基百科系统[25]等;在中医药知识的推广普及方面,可建立基于知识图谱的信息检索系统、基于自然语言的问答引擎[26]等;在临床诊疗方面,可建立基于知识图谱的四诊信息采集、诊断、处方用药系统;在医师诊疗规律挖掘方面,可运用知识图谱挖掘中医师“病-证-治-效”临床诊疗数据之间的相互关系和内在规律。因此,知识图谱为开展中医基础理论体系、临床诊疗规律研究提供了有利的工具,探索解决中医临床诊疗过程中多尺度非完整信息整合的核心技术,建立中医药知识图谱构建的流程和规范将成为研究的热点。

[1] 陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,2005,23(2):149-154.

[2] 陈悦,刘则渊,陈劲,等.科学知识图谱的发展历程[J].科学学研究, 2008,26(3):449-460.

[3] 杨国立,李品,刘竟.科学知识图谱——科学计量学的新领域[J].科普研究,2010,5(4):28-34.

[4] 杨思洛,韩瑞珍.国外知识图谱绘制的方法与工具分析[J].图书情报知识,2012,20(6):101-109.

[5] 杨思洛,韩瑞珍.国外知识图谱的应用研究现状分析[J].情报资料工作,2013(6):15-20.

[6] 肖明,邱小花,黄界,等.知识图谱工具比较研究[J].图书馆杂志, 2013,32(3):61-69.

[7] 陈超美.科学前沿图谱——知识可视化探索[M].北京:科学出版社, 2014.

[8] 邓君,马晓君,毕强.社会网络分析工具Ucinet和Gephi的比较研究[J].情报理论与实践,2014,37(8):133-138.

[9] 侯月明,乔晓东,孙卫,等.开源分析工具在中文文献分析中的应用[J].现代图书情报技术,2013(3):71-76.

[10] 曹树金,吴育冰,韦景竹,等.知识图谱研究的脉络、流派与趋势——基于SSCI与CSSCI期刊论文的计量与可视化[J].中国图书馆学报,2015, 41(5):16-34.

[11] 赵蓉英,王敏.国际视野下中医研究的可视化分析[J].医学信息学杂志,2011,32(7):36-41.

[12] 徐浩,濮文渊,钱爱兵,等.我国中医学学科交叉领域研究热点可视化分析[J].中草药,2015,46(19):2966-2973.

[13] 杨秦,曾莉,李文林.中医外科关于疮疡研究的知识图谱分析[J].南京中医药大学学报,2012,28(6):535-537.

[14] 谭火媛,魏静,谭定英,等.基于CiteSpaceⅢ的中医药治疗高血压前沿与热点可视化研究[J].现代计算机:专业版,2016(11):50-54.

[15] 王淑斌.中西医治疗2型糖尿病的知识图谱分析[D].北京:北京中医药大学,2014.

[16] 刘俊丽,张秀梅,蒋勇青.基于文本挖掘的乙型肝炎相关文献知识图谱分析[J].医学信息学杂志,2014,35(1):48-53.

[17] 秦义,田元祥.基于CiteSpace的气虚证证候诊断标准知识图谱可视化分析[J].中医杂志,2015,56(18):1588-1592.

[18] 秦义,田元祥.基于CiteSpace的血瘀证证候诊断标准研究的可视化分析[J].世界科学技术-中医药现代化,2015,17(12):2656-2665.

[19] 郭栋,童元元,黄生权,等.基于数据挖掘的枸杞研究热点分析[J].中国中医药信息杂志,2016,23(9):48-51.

[20] 李曌嫱,田元祥,赵建新.针灸治疗腰椎间盘突出症常用腧穴的可视化分析[J].河北中医,2016,38(9):1372-1377.

[21] 胡松洁,马彦平.基于知识图谱的“中医五行音乐疗法”可视化构建研究[J].长春中医药大学学报,2015,31(3):534-537.

[22] 张静.中医药专业人才培养研究的知识图谱与主题分析[J].济宁医学院学报,2017,40(1):51-55.

[23] 陈姗姗,邵英俊.基于中国知网的中医药传播研究的计量分析[J]. 中国中医药现代远程教育,2017,15(3):6-9.

[24] 荣光,谢晴宇,孟庆刚.中医电子病历研究领域科学知识图谱分析[J].中国中医药信息杂志,2017,24(1):99-104.

[25] 于彤,刘静,贾李蓉,等.大型中医药知识图谱构建研究[J].中国数字医学,2015,10(3):80-82.

[26] 阮彤,孙程琳,王昊奋,等.中医药知识图谱构建与应用[J].医学信息学杂志,2016,37(4):8-13.

[27] 阮彤,王梦婕,王昊奋,等.垂直知识图谱的构建与应用研究[J].知识管理论坛,2016(3):226-234.

[28] 贾李蓉,刘静,于彤,等.中医药知识图谱构建[J].医学信息学杂志, 2015,36(8):51-53.

[29] 张德政,谢永红,李曼,等.基于本体的中医知识图谱构建[J].情报工程,2017,3(1):35-42.

[30] 王华珍,彭淑娟,缑锦,等.基于随机森林的中医数据可视化研究[J]. 系统仿真学报,2014,26(11):2751-2756.

Research Review ofKnowledge Graph and Its Application in TCM Field

LI Xin-long, LIU Yan, HE Li-yun, LIU Bao-yan, ZHANG Yan-hong

As the new development of scientometrics and informetrics, knowledge graph has infiltrated into the financial, industrial and medicalfields,and become a hot issue in the real world research.In this article, the concept and features of knowledge graph, construction and the existing softwares, the application status and development prospect in the TCM field were reviewed, whichmay provide references for research on the knowledge graph in the TCM field.

knowledge graph;TCM;application prospect;review

10.3969/j.issn.1005-5304.2017.07.033

R2-05

A

1005-5304(2017)07-0129-04

国家自然科学基金面上项目(81673964);国家自然科学基金青年基金(81503679)

刘保延,E-mail:cectcm@gmail.com

(2016-08-20)

(2017-04-09;编辑:向宇雁)

猜你喜欢
图谱可视化中医药
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
中医药在恶性肿瘤防治中的应用
中医药在治疗恶性肿瘤骨转移中的应用
绘一张成长图谱
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
从《中医药法》看直销
补肾强身片UPLC指纹图谱
中医药立法:不是“管”而是“促”