程小恩,温川飙,许 强,胡远樟,张小会
(1. 成都中医药大学医学信息工程学院 成都 610000;2. 中国医学科学院医学信息研究所 北京 100020)
中医药的数据广泛分布在各个领域,包含口传心授的数据、临床电子病案数据、文献数据、穿戴设备数据等。多类型的中医药数据正持续不断地丰富中医药数据库。研究[1]表明这些数据展现出的“不求精益、追求整体”的大数据特点。
近年来,中医药数据的客观化、可计算性的研究成为研究和发展中医药信息数据的基本方法,部分学者通过大数据聚类或统计分析方法对中医药数据进行用药规律、关联分析等研究(图1),人工智能技术的飞速发展,中医药数据研究已在医学专家问答、医学影像切割和分类、四诊客观化等众多领域取得了突破[2],本文从中医人工智能技术的发展需求角度探讨中医药大数据的特征,有利于更好地利用人工智能技术发展中医药信息学。
查阅知网,万方、中国中医药文献数据库等知识库中的2356 条关于中医药特征数据的文献。上海中医药大学陈陵和徐燎宇通过剖析大数据“4V”的特性[3],即数据容量大(Volume)、数据增速快(Velocity)、数据来源广(Variety),“信息价值大与冗余信息多(Value)”和另一个特点即真实性(Veracity),提出中医药大数据作为一种独特的医疗大数据的观点[3]。河南中医学院第一附属医院邵明义,中国中医科学院中医临床基础医学研究所刘保延等[4]研究者从中医药临床科研数据面临的问题着手,阐述了中医药临床数据的复杂性和多样性。中国中医科学院信息所于琦等[5]通过对比大数据,提出中医药数据具有数据量大,数据类型多,价值密度高,处理速度快的4V 特点,得出中医药信息数据的特点与大数据的特征具有相似性的结论。甘肃中医药大学的王晓丽等[6]通过对真实世界大数据特点与中医关系的分析,提出中医药数据的整体性、模糊性、多样性。研究者对中医药数据特征的研讨普遍沿用大数据的4V特点阐述中医药数据特征,学者们关于中医药信息数据的研究普遍认为符合大数据的4V特点。分析中医药特征数据的文献,学者们尝试在4V特征基础上突出其中医药研究的特色,探讨中医药数据特征。李灿东等[7]指出大数据与中医药信息学特征的相似性,提出中医药数据特征具有:数据来源电子化、多样化;数据指数级增长、应用增多的特点。陶永鹏等[8]提出中医药数据除具有大数据的特点外还具有全数据的特点,以及中医药数据的模糊性和相关性特点。山东中医药大学吴俊玲[9]认为大数据与中医药学信息特征具有高度的相似性,包括全体数据与整体观念、混杂性与模糊性、相关性与关系论。综上,中医药领域现有研究者对中医药数据特征的分析,主要从数据量、数据种类、数据产生、数据价值4个角度分别对大数据特征进行了数据特征的描述(见表1)。
图1 2000-2019年中医人工智能数据挖掘领域关键词共现可视化知识图谱
表1 中医药数据与大数据特征对比分析表
当前中医传承、疗效、中医辨证论治算法研究等领域中的复杂模型系统或分类识别方法等人工智能算法已应用到中医客观化的研究中,成为研究中医数据主要的研究方式。本文在总结和分析研究者们对中医药大数据特征的基础上,从基于中医人工智能技术的发展需求角度,结合中医药人工智能新的研究技术,研究思路和研究成果,突出中医的整体观、抽象性、模糊性等特征,提出中医药大数据典型的四大数据特征。
中医药的数据主要包括五类:①临床医疗数据:医院信息系统(Hospital information system,HIS)(影像、临床、实验室、电子病历等数据);②中医药文献数据:期刊文献、会议文献、博士论文、硕士论文、报纸、专利、标准、古籍文献、现代医著等;③临床研究数据:临床试验数据、中药临床疗效数据、药品安全监测数据、经济性研究数据、动物药物试验数据;④环境数据:气候、节气、环境温湿度,空气质量等数据;⑤其他数据:网络信息、社交网络、心理健康、穿戴设备等新兴数据源。数据来源的多样化,混杂性较西医数据更为明显,这与学者们提出的中医药数据具有大数据海量性的基本特征一致,但中医药海量多源数据特征的实质在于—数据的持续产生和生态循环特征。
临床医疗数据、中医药文献数据、临床研究数据、环境气候数等产学研数据这些多源数据是持续产生的。中医人工智能技术,需要海量的数据训练算法。中医数据来源的多样性是中医人工智能技术的数据基础。多层次的中医药数据资源整合到一起,通过人工智能技术,可以分析数据的特点,并且海量的数据,可以通过算法实现数据间的互补性,突出数据的特征,从而帮助研究者更全面深入地理解和把握对生命和人体的认识。
通过人工智能技术有效地分析、利用中医药数据,实现数据集成,并将整体关联的数据服务于产、学、研体系。产、学、研体系又会产生形成新的中医药成果数据服务于中医人工智能领域,形成可持续发展、良性互动的生态循环数据体系(图2)。
图2 多源持续,生态循环
整体观念是中医辨证论治的基本特点。人体由若干脏腑、组织和器官组成,每个脏腑、组织和器官各有其独特的生理功能,同时这些不同的功能又是人体整体活动的重要组成部分。在整体观念指导下中医学认为人体正常生理活动的完成一方面依靠各脏腑组织发挥各自的功能作用,另一方面则依靠脏腑组织之间相辅相成的协同作用和相反相成的制约作用才能维持其生理上的平衡。研究者们认为中医学非常重视人体本身的统一性、完整性及其与个体所在自然界的相互关系。
当代中医师除了需通过望、闻、问、切收集患者的四诊信息,还可以结合中医辨证采集检查检验、穿戴设备、生存环境等多样化的数据以获得对患者病情的综合认识和全面研究。多源异构的数据体现了人体局部与整体的统一,以及人体与自然环境、社会环境的统一性与关联性和整体性特征。中医辨证论治的现代思维通过对症状的病机、病因分析,利用多样化的数据,综合分析后实现对个体的对症下药[12],其思维集中体现了数据的整体系统性和集成综合性。中医现代医学的思维模式与人工智能中数据的整体关联模式契合(图3)。人工智能中数据的整体关联模式从整体、宏观、动态、功能与外在表现的联系数据,通过算法得出数据结论。中医学大数据将疾病相关的数据转化为认知生命的信息,通过算法实现知识的不断积累过程,形成独具特色的中医临床诊疗思维。中医辨证论治的现代思维过程刚好是人工智能,深度学习,分层特征提取等数据算法的实现过程。
图3 中医学人工神经网络
图4 中医药人工智能大数据动态处理过程
利用大数据人工智能技术处理中医药数据,需采集整体的数据,挖掘各数据间的关联关系,从整体系统的角度理解中医药大数据的特征,才能有效地理解中医辨证论治的核心思想。
中医药大数据产生速度快,每时每刻临床诊疗数据、文献数据、科研等数据都在不断产生,数据的快速性是随着时间空间等实时变化。这种变化是中医药大数据动态特征的体现。当前,人工智能技术的大数据流式计算可以实现中医药健康数据快速、实时的动态采集,采集后的数据通过大数据处理(数据清洗、分析、评价、可视化)等过程,对中医药健康数据进行不间断处理,该过程把中医药相关先进技术转化为科学研究成果,同时将实时的先进成果及时地应用于临床、科研等数据中动态循环(见图4)。实现中医药数据的动态处理才能充分地有效地利用中医药实时更新的数据。
图5 疾病云图
图6 医古文献的自然语言处理系统
以人工智能在疾病预防中的应用为例,将医院实时的疾病数据与地理信息数据结合构建疾病热力图,利用技术及时分析和预测疾病的地理位置分布(图5),实现对疾病的实时检测与预防。这一过程正体现了中医药大数据的动态处理特性。
中医药文献、临床、科研等数据对于中医药产、学、研有着巨大的研究价值和利用价值。如何利用人工智能技术算法,充分发挥中医药海量数据的价值,挖掘中医宝库的精髓,已成为当前研究的核心热点。
中医药文献数据是医疗工作者获取知识的重要数据。阐述外感及其杂病治疗规律的专著《伤寒杂病论》、奠定杂病理论基础和临床规范的《金匮要略》、以生命为中心,重点论述了脏腑、经络、病因、病机、治疗原则以及针灸等多方面内容,同时涉及了天文、地理、心理、社会、哲学、历史等多个学科的《黄帝内经》等中医经典文献中拥有丰富的大数据资源[20]。利用人工智能技术的自然语言处理算法建立古籍语言分析系统(图6),可以解释古汉语数据,通过文献计量的可视化分析工具可以将不同出处的文献数据可视化表达,有效实现文献数据传播和利用的价值,快速协助医学工作者获取知识,提升临床业务水平。
在大数据时代下,不仅可以实现古代文献数据的整合形成知识图谱。中医药的临床和科研数据也可以利用人工智能算法,通过计算机语言对观测指标进行个性化的展现,实现对复杂多样数据的直观认识过程。邵晗征等[21]提出公立医院BI 数据可视化模块设计研究方法,实现医院的“资源数据、业务量分析、收支分析、效率分析、财务风险分析、院长驾驶舱”6大主题的经济运行指标可视化体系框架。严雅汐[22]研究了医疗健康数据可视化工具的设计与实现,提出了一种基于HTML5 技术实现医疗健康数据多维智能可视化显示的思路与方法。通过人工智能技术对庞杂的医疗数据分析,设计数据框架,通过合理的算法实现了人的视觉思维感知信息特征,因此医疗数据的价值是可见的。通过人工智能技术,医疗数据的管理和有效分析的数据价值可呈几何级数的提升。
中医药人工智能技术进入加速发展的时代。本文通过剖析人工智能技术与中医药信息学方面的关系特征,提出中医药大数据四大特征,即持续循环、动态处理、整体系统、价值可见。遵循该特征可以有效利用临床数据设计算法指导中医优势病种的诊疗,可以有效指导研究者更好地深入探究中医药大数据背后的价值,从而推动中医药产业的发展。