基于案例驱动的医学数据挖掘课程教学研究与实践

2023-09-12 06:59李四海李燕
科教导刊 2023年14期
关键词:教学资源库数据挖掘创新能力

李四海 李燕

摘要 文章针对医学数据挖掘课程教学过程中存在的涉及数学学科知识较多、理论知识抽象、教学难度较大、理论及实践教学资源匮乏等问题,按照培养方案,遵循“模块化、层次化、开放性”的原则,通过构建优质的理论和实践教学资源库进行全程案例驱动教学,能够降低理论知识学习难度、强化实践教学环节、提高学生的学习兴趣、提升课程教学质量、促进课程建设和专业团队建设。分析了教学资源库构建的必要性、路径以及对培养学生创新能力的重要意义。

关键词 数据挖掘;教学资源库;案例驱动;创新能力

中图分类号:G424文献标识码:ADOI:10.16400/j.cnki.kjdk.2023.14.034

数据挖掘(Data Mining,DM)又称知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点,数据挖掘是指从数据库的大量数据中发现隐含的、先前未知的并有潜在价值的规律和知识的过程。数据挖掘主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等[1]。与常规的数据挖掘相比,医学数据挖掘有其自身的特点,主要表现在挖掘对象的广泛性和异质性、挖掘算法的鲁棒性和高效性、获取知识或决策的准确性和可靠性等[2-3]。在医学数据挖掘算法中,决策树、贝叶斯网络、深度神经网络、关联规则以及主题模型等在医学辅助诊断、医学影像识别、医学文本语义分析方面取得了较大的进展并展现出独特的优势。

2019年10月中共中央、国务院发布的《关于促进中医药传承创新发展的意见》提出了以信息化支撑中医药服务体系建设,实施“互联网+中医药健康服务”行动。意见的发布,指明了大数据与中医药跨学科发展的方向,大数据在中医大数据框架相关研究、物联网传感器技术相关研究、特殊疾病的治疗相关研究及中药材和制药领域相关研究方面将大有可为。2020年8月19日,国家健康医疗大数据研究院正式成立,标志着国家将进一步大力推进政府健康医疗信息系统和公共健康医疗数据互联、融合、开放、共享。随着近几年互联网、AI、云计算、物联网等高新技术的发展,为中医药发展注入了活力,也为中医药发挥更大价值提供了有力支撑。

医学数据挖掘课程是医学信息工程本科专业开设的一门重要的专业方向课程,该课程的开设对于培养既具有一定的健康医疗背景知识,又具有扎实的计算机科学知识和良好的数据分析能力的交叉型应用型人才具有重要作用,符合教育部目前提出的“新工科”“新医科”的新时代教育模式改革方向。

通过对前期发放的调查问卷进行深入分析,结合多年的教学经验发现,医学数据挖掘课程涉及的数学知识较多、理论知识理解难度较大,主要原因在于理论和实践教学资源匮乏,特别是满足教学要求的实践教学资源较少,针对性不强,没有进行全程案例驱动教学。针对上述问题,本文分析了目前医学数据挖掘课程教学中存在的问题,构建理论和实践教学资源库的必要性,列举了构建理论和实践教学资源库的主要内容,最后提出了構建教学资源库的路径和资源库的应用方法。

1医学数据挖掘课程教学分析

1.1理论知识抽象,理解困难,教学难度较大

医学数据挖掘课程涉及的数学知识很多,包括最优化理论、高等数学中的偏导数及泰勒展开,线性代数,矩阵论,概率论与数理统计中的贝叶斯公式、参数估计等知识点。这些数学知识点是深入理解数据挖掘相关算法的基础,比如在讲解朴素贝叶斯分类时,会涉及贝叶斯公式,上课过程中发现部分学生并没有理解贝叶斯公式的实质,导致在学习贝叶斯分类算法时存在困难。

1.2缺乏中医药实践教学资源

由于医学数据挖掘主要解决的是中医药领域的具体问题,现有的实践教学资源主要存在以下三个方面的问题。一是针对性不强。例如,目前常用的UCI标准数据集缺乏有关中医方剂以及中药红外光谱方面的数据集。二是数据集大多是经过预处理的标准数据集,其主要目的在于测试比较不同算法的性能。但真实的数据挖掘场景通过数据的获取、对数据的理解以及数据预处理,直接使用标准数据集进行数据挖掘导致实践教学环节缺乏完整性。三是实践教学资源和中医药领域问题的交叉融合度不够,不能很好地体现“新工科、新医科”的专业发展方向。

2教学资源库构建的必要性

2.1优选教学资源

医学数据挖掘课程主要讲授数据挖掘技术在医学领域中的具体应用,不论是在教材的选择还是在内容的选取方面,不同的中医药院校着重点都有所不同,因此直接选取经典的数据挖掘教材并讲述全部内容并不一定能产生好的教学效果。主要原因在于经典的数据挖掘教材更加注重算法原理的介绍,会涉及比较多的数学公式推导,并且在算法实例部分不会或很少涉及中医药领域的具体问题。因此,中医医院院校的医学数据挖掘课程需要对理论教学内容进行优化,将更多的关注点放在中医药领域常用的一些算法上,比如主成分分析、偏最小二乘、关联规则、主题模型、神经网络、支持向量机以及层次聚类算法等。同时,增加中医药领域的一些实践教学资源,比如方剂数据库、红外光谱数据库、医学影像数据库以及脉象和舌象数据库等,通过理论和实践教学资源库的构建,体现中医药院校医学数据挖掘课程的特色和优势,提高学生的学习兴趣,强化学生对理论知识的理解和掌握。

2.2增强实践能力

医学数据挖掘是一门实践性很强的课程,教学的最终目的在于让学生具备运用相关算法解决实际问题的能力。然而,传统的实践教学资源大多是基于一些公开的标准数据集,如UCI公开数据集、这些数据集大多是经过预处理的,一般没有缺失值、噪声较小,基本可以直接导入使用,一般只能用于学生理解和运用学习的相关算法,对锻炼学生解决实际问题的能力作用有限。实际的数据挖掘过程大约70%的工作量在于数据预处理,因此,学生通过自己获取数据并进行数据的清洗、缺失值填充、数据的规范化等有利于学生对领域知识的了解,提高学生分析和解决实际问题的能力。比如,在构建近红外光谱实践教学资源过程中,其主要流程就包括中药材的采集、中药材近红外光谱的扫描、光谱预处理方法等。

2.3培养数据思维

科学思维主要包括理论思维、实验思维、计算思维以及数据思维。在医学信息工程专业开设的众多专业课程中,高等数学、线性代数、概率论与数理统计、离散数学的等数学类课程主要培养学生的理论思维;大学物理课程主要培养学生的实验思维;数据结构、操作系统、计算机组成原理、Java语言程序设计、医学信息学等课程主要培养学生的计算思维,学生通过这些课程的学习能够学会从计算机的角度分析问题和解决问题,主要包括:迭代、递归、分治、编码、分组、存储以及并行计算等。随着大数据和云计算技术的快速发展,进一步培养学生的数据思维意识对于丰富学生的科学思维具有重要作用。通过构建高质量的医学数据挖掘课程实践教学资源库,开展构建医学知识图谱、医学辅助诊断、医学模式挖掘等方面的交叉研究,从医学数据中挖掘出医学领域的一些重要知识和规律,最终实现对学生計算思维和数据思维的培养。

2.4促进课程建设和学科发展

课程建设是专业建设和学科建设的基础,医学数据挖掘课程对于数据结构、概率论与数理统计、数据库原理、Python语言程序设计等课程的学习具有很好的辐射和带动作用,学生能够将已有的课程知识很好地运用到解决数据挖掘的实际问题之中,这对于课程群的建设具有重要作用。通过构建理论和实践教学资源库,有利于推进教学模式的创新和教学方法的改革,有利于开展混合式教学,有利于建设一流课程,促进课程建设和学科发展[4]。

3教学资源库的主要内容

3.1课程知识模块设置

医学数据挖掘课程涉及的理论和算法很多,对于如何构建教学资源库并没有明确的结论,目前还处于探索中[5]。针对中医药院校开设的医学数据挖掘课程,应该强调数据挖掘算法在中医药领域的应用。为此要对理论知识进行梳理和优化,将在中医药领域常用的算法以知识点的方式进行模块化,并构建相应的理论资源库和实践教学资源库。将不同的知识点大致分为三个模块:中医方剂挖掘、中药质量定量分析和定性评价、临床辅助诊断。课程知识模块设置如表1所示。

3.2理论教学资源库

根据课程知识的模块化设置,按照“模块化、层次化、开放性”的原则构建理论教学资源库。理论资源库由三个部分组成:中国大学MOOC中有关机器学习和数据挖掘的课程,由教师遴选推荐;经典的数据挖掘算法源码实现,scikit-learn等机器学习库的介绍;教师录制数据挖掘导论部分的内容,该视频内容包括经典书目介绍、学习资源推荐、数据挖掘常用算法介绍以及常用的应用领域等。理论教学资源和实践教学资源内容如图1所示。

3.3实践教学资源库

实践教学资源自底向上分为三个层次:验证性资源[6]、医学领域资源和开放性资源。验证性资源主要包括常用的UCI标准数据集,经典教材中用到的超市购物数据集、西瓜数据集和天气数据集等。这些数据集一般样本量和特征数较少,主要用于理解算法的基本原理,熟悉算法的运行过程。医学领域资源主要包括:玉米和小麦等标准红外光谱数据集、方剂数据库、胸片的影像数据库以及生物信息学领域的基因、蛋白数据集。学生在理解数据挖掘算法基本原理的基础上,在更大规模和更复杂数据上理解和运用数据挖掘方法解决实际问题,锻炼医学信息工程专业学生或其他中医药学专业研究生理解领域问题、预处理数据以及优化和改进模型的能力[7]。开放性资源主要包括采集的当归、黄芪、秦艽、党参等道地药材的红外光谱数据集和医院的HIS、PACS、LIS等系统产生的数据集[8],这涉及数据集成、数据清洗和预处理等工作。实践性教学资源库都是开放性的,需要不断更新和优化。

4教学资源库的构建路径和应用

医学数据挖掘课程开展线上线下混合式教学,教学平台由学校教育技术中心提供。其中,线上教学为学生提供理论教学资源和实践教学资源。理论教学资源主要包括教师遴选的中国大学MOOC中的部分优质教学资源、教师录制的医学数据挖掘课程简介视频、教师录制的医学数据挖掘数学基础知识讲解视频等。实践教学资源目前主要包括三个部分:第一是验证性数据集,主要包括鸢尾花数据集、天气数据集、超市数据集、西瓜数据集、阑尾炎数据集、中风数据集等。第二是具有中医药特色的中医药学数据集,包括方剂数据库、部分道地药材的红外光谱数据集、部分医学影像数据集。第三是与相关医疗机构和疾控中心共享的仅用于学术研究的一些开放性数据集,包括从医院信息系统导出的各种医学影像数据集、临床诊断数据集和各种流行病调查方面的数据集等。实践性教学资源库根据理论教学内容的调整不断进行更新和优化,符合“模块化、层次化、开放性”的构建原则。

教学资源库的应用按照层次化的原则,在授课过程中首先使用验证性实践教学资源,目的是使学生理解算法的基本原理,例如,在讲解关联规则分析时,使用AllElectronics某分店的事务数据集,该数据集共有5个事务,5个商品项。通过该数据集,学生能够非常直观地理解如何通过k-1项集的拼接得到候选k项集,如何利用先验知识对候选k项集进行剪枝,如何根据预设的最小支持度阈值判断候选k项集是否为频繁k项集等。在理解算法原理的基础上,基于Weka等流行的数据挖掘平台导入该数据集[9],由于学生已经理解了相关算法,因此很容易理解Weka中Apriori算法各个算法参数的含义,也清楚参数的设置对挖掘结果的影响,通过对挖掘结果的验证,学生已经基本熟悉了数据挖掘的基本流程。然后使用医学领域的实践教学资源,该教学资源是冠心病方剂的一些经典方剂,学生可以直接从线上教学平台下载使用,该数据集需要进行数据清洗,数据格式转换和数据集成,学生使用关联规则挖掘算法,挖掘出治疗冠心病的常用对药。通过该层次的实践环节,学生将能够进一步加深对关联规则挖掘算法的理解,同时进一步熟悉数据挖掘在中医药领域的具体应用。

教学资源库的应用也要体现开放性的原则。例如,在讲解CART回归决策树算法时,首先使用验证性实践教学资源,该数据集共10个样本,一个特征x,构建决策树根据x预测y值[10]。借助EXCEL等电子表格软件,很容易计算每次分裂后左右子树的均方根误差,并完整复现二叉树的分裂过程,需要指出的是,决策树算法知识点可以挖掘出很好的课程思政元素[11],比如,从叶子结点中样本的个数引出个性与共性的关系,叶子节点数量与模型复杂度以及模型欠学习和过学习的关系等,引导学生要正确处理个性与共性的辩证关系,树立团队意识,善于融入集体和團队。在学生弄懂算法基本原理的基础上,使用医学领域实践教学资源中的corn近红外光谱数据集,该数据集80个样本,700个波数特征,预测值为moisture、oil、protein、starch等成分含量。学生可以基于Weka完成该实践任务,熟悉数据挖掘的基本过程;也可以基于scikit-learn等基于python的机器学习库,调用CART回归树完成该实践环节,进一步熟悉sklearn中决策树的使用接口,参数设置对决策树的复杂度及预测能力的影响。在开放性资源的使用部分,学生通过参与教师课题,完成当归、秦艽等中药材的近红外光谱采集,进一步理解近红外光谱的指纹特性,光谱数据中的噪声来源及类型,不同预处理方法对预测结果的影响等,通过该实践环节,学生加深了对数据的理解和认识,也进一步体会到数据预处理对数据挖掘的重要性,增强了学生开展交叉研究的能力。

5结语

随着中医药信息化的不断发展,在中医药大数据背景下,医学数据挖掘课程的开设对于医学信息工程专业及其他中医药学专业的研究生都具有重要意义。理论和实践教学资源库的构建对于优化教学资源、进行全过程案例驱动教学,构建符合OBE理念的人才培养模式、提高学生的实践能力和创新能力具有重要作用,教学资源库的构建满足“模块化、层次化、开放性”的原则,其中的方剂数据库、光谱数据库以及影像数据集体现了中医药特色。教学资源库的使用既强调理论知识的模块化,更加要重视实践环节的层次化和开放性,只有层层递进,逐步提高,才能培养学生既具有扎实的理论基础,又具有较强的解决实际问题和开展交叉研究的能力。同时,教学资源库也要不断更新和优化,这样才能不断满足医学数据挖掘技术发展的需要。

基金项目:甘肃中医药大学教学研究与教学改革项目(YB-201812)。

参考文献

[1]刘铭,吕丹,安永灿.大数据时代下数据挖掘技术的应用[J].科技导报,2018,36(9):73-83.

[2]秦文哲,陈进,董力.大数据背景下医学数据挖掘的研究进展及应用[J].中国胸心血管外科临床杂志,2016,23(1):55-60.

[3]张国庆,李亦学,王泽峰,等.生物医学大数据发展的新挑战与趋势[J].中国科学院院刊,2018,33(8):853-860.

[4]黄岚.数据挖掘课程实践教学资源库建设[J].计算机教育,2014(12): 89-92.

[5]安璐,欧孟花,李纲.数据挖掘课程的知识体系构建[J].图书情报知识,2016(5):4-12.

[6]潘媛媛,黄道斌,卢小杰,等.医学院校数据挖掘实践教学资源库建设[J].计算机教育,2020(7):144-147.

[7]李四海,任真,李燕.中医药院校研究生计算机应用能力培养的探索与研究[J].甘肃中医药大学学报,2017,34(4):105-108.

[8]吴宗友,白昆龙,杨林蕊,等.电子病历文本挖掘研究综述[J].计算机研究与发展,2021,58(3):513-527.

[9]谭成兵,周湘贞,朱云飞.基于Weka和协同机器学习技术的数据挖掘方法研究[J].长春大学学报,2020,30(12):5-9.

[10]李航.机器学习方法[M].北京:清华大学出版社,2022.

[11]王倩,何海涛,王岩.“数据挖掘与知识发现”课程思政建设的探索与实践[J].教学研究,2022,45(3):75-80.

猜你喜欢
教学资源库数据挖掘创新能力
高中数学课堂教学中创新能力的培养
创新能力培养视角下的无机化学教学研究
探讨人工智能与数据挖掘发展趋势
推进软件产业创新能力提升
基于并行计算的大数据挖掘在电网中的应用
基于创新能力培养的高职音乐教育改革探讨
基于学徒制的电气自动化技术专业改革与实践
移动互联开发的教学资源库的建设研究
基于校企合作模式下计算机专业教学资源库建设
高职口腔医学技术专业教学资源库建设探索