医学数据挖掘课程实践教学资源库的建设

2023-03-25 09:24李四海陈建国
科教导刊 2023年4期
关键词:决策树资源库数据挖掘

李四海,陈建国,李 燕

(甘肃中医药大学信息工程学院 甘肃 兰州 730000)

当今时代,学科之间的交叉融合已成为现代科学技术和工程技术发展的重要趋势和途径,也是目前新工科建设和发展的核心要求[1-2]。实现工科和医科的交叉融合,对培育以智慧医疗、医疗设备、药物研发以及医用材料为主要内涵的新兴新工科专业具有重要作用。

医学信息工程专业是具有中医药特色的工科专业,以教育部首批“新工科”研究与实践项目的获批为契机,近年来,该专业在课程建设和专业内涵建设上都取得了较好的进展。课程建设是连接新学科和新专业的桥梁和纽带[3],是专业建设的内在驱动力。医学数据挖掘是医学信息工程本科专业开设的一门重要的专业课程,该课程的开设对于培养既具有一定的健康医疗背景知识,又具有扎实的计算机科学知识和良好的数据分析能力的交叉型应用型人才具有重要作用,符合目前教育部提出的新工科建设方向。

医学数据挖掘课程涉及的知识点较多,包含有宽泛的医学背景知识、高等数学、线性代数、概率论与数理统计、机器学习、数据仓库以及最优化理论等[4-5]。对于该课程学生理解困难、教学难度较大,主要原因在于实践教学资源匮乏,特别是满足实际教学要求的实践教学资源较少,针对性不强。针对上述问题,课程团队构建了针对性较强的实践教学资源库,列举了构建实践教学资源库的主要内容,提出了实践教学资源库的应用方法。

1 医学数据挖掘课程实践教学现状

1.1 实践教学过程缺乏完整性

医学数据挖掘课程经典教材严重缺乏,已有的一些医学数据挖掘教材的侧重点大多是面向生物医学领域,没有适合中医药院校的教材。经典数据挖掘教材中的案例有助于学生理解常用的数据挖掘算法,但不利于培养学生的交叉研究能力和解决医药学领域实际问题的能力。目前,医学数据挖掘课程的实践环节以验证性实验为主,实践教学环节缺乏完整性[6],实践资源大多是一些标准的机器学习数据集,例如UCI 数据集,这些数据集主要用于测试比较不同算法的性能,不利于学生对数据挖掘整体过程的理解和掌握,完整的数据挖掘过程应当包括对具体问题的理解、数据的获取、数据预处理、数据质量分析、数据挖掘模型的建立和优化、模型的评估和可视化、对模型的解释、对具体要解决问题的深入理解等。

1.2 实践教学资源的针对性不强

医学数据挖掘主要运用数据挖掘理论解决医药领域的具体问题,目前已有的实践教学资源主要存在以下两个方面的问题。一是针对性不强。例如,经典教材中缺乏有关中医方剂以及中药红外光谱方面的数据集[7]。二是实践教学资源缺乏层次性。验证性实践教学资源的目的只是帮助学生理解数据挖掘算法的基本原理,对算法的深入理解、熟练运用相关算法解决医药领域的实际问题还需要综合性实践教学资源和开放性实践教学资源,这两个层次的实践资源是对验证性实践教学资源的补充和深化,有助于学生对算法的深入理解,夯实理论基础,进一步培养学生的实践能力和创新能力。

2 实践教学资源库的主要内容

实践教学资源自底向上分为三个层次:验证性实践教学资源、综合性实践教学资源和开放性实践教学资源。如图1 所示。

图1 实践教学资源库的主要内容

2.1 验证性实践教学资源

验证性实践教学资源主要来自一些经典数据挖掘教材中的数据集,数据集的样本和特征都比较少,教师主要在课堂讲授具体算法时使用。主要内容如表1 所示。

表1 验证性实践教学资源

2.2 综合性和开放性实践教学资源

综合性实践教学资源主要包括:标准的红外光谱数据集、自建的经方数据库、胸片的影像数据库以及生物信息学领域的基因数据集。这些数据集来自不同的应用领域,以医药领域为主。学生在验证性实验的基础上再进行综合性实验,进一步加深对算法的理解,熟悉数据挖掘的具体流程,锻炼医学信息工程专业学生解决不同领域特别是医药领域实际问题的能力。

开放性实践教学资源主要包括甘肃道地中药材的近红外和中红外光谱数据集、医院的电子病历数据集[9],这涉及到数据集成、数据的清洗和数据预处理等工作。电子病历评级政策的出台对电子病历的挖掘和利用提出了更高的要求,根据国家卫健委电子病历的评级要求,4 级要求医院实现合理用药功能,5 级要求医院利用知识库实现决策支持服务,并能够为医疗管理和临床科研工作提供数据挖掘功能,6 级则要求医院建立全院级多维度医疗知识库体系,提供高级别医疗决策支持。因此,在以后的开放性实践教学资源的更新和优化过程中,要进一步充实和完善有关电子病历方面的实践教学资源。

3 实践教学资源库的应用

实践教学资源库的应用具有层次性。

首先,使用验证性实践教学资源讲授算法的基本原理。例如,在讲解三种经典的决策树算法ID3、C4.5、CART 时,使用贷款申请数据集,该数据集共有15 个样本,4 个特征:年龄、是否有工作、是否有自己的房子、个人信贷状况,类别为是否同意贷款。该数据集样本和特征少,便于理解算法的工作过程。在课堂讲授中,教师分别以信息增益、增益率和基尼指数为划分准则,分别完整构建ID3、C4.5、CART 决策树,学生可以直观感受到建立的ID3 决策树枝繁叶茂,C4.5 是比较简洁的多叉树,而CART 决策树是简洁优雅的二叉树。由此,进一步讲解ID3 算法的主要缺点以及C4.5 是如何克服这些缺点的,在学生理解二者的联系和区别的基础上,进一步讲解基尼指数和熵的区别与联系,指出基尼指数是熵的近似替代,CART 分类树使用基尼指数作为划分准则的目的是为了简化计算,并且更加容易构建优雅的二叉树。以上讲解由直观到具体、由简单到复杂、层层递进、逐步深入,学生很容易理解三种决策树的区别与联系,也能理解枝繁叶茂的决策树为什么容易过拟合,决策树叶子节点中样本的共性和个性之间的关系等。学生不仅掌握了决策树算法的基本原理,也夯实了数据挖掘和机器学习的理论基础。在理解算法原理的基础上,基于Weka等流行的数据挖掘平台[10]导入贷款申请数据集,由于学生已经理解了相关算法,因此很容易理解Weka 中C4.5和CART 决策树算法各个参数的含义,也清楚参数的设置对结果的影响,通过对挖掘结果的分析,学生已经熟悉了数据挖掘的基本流程。

在验证性实验的基础上,下一步再进行综合性实验,该教学资源分别是UCI 中的乳腺肿瘤数据集和不同产地当归的中红外光谱数据集,学生可以直接从教师提供的教学平台下载使用,其中,中红外光谱数据需要进行数据清洗和数据预处理,学生使用CART 分类树算法,建立相应的分类模型并对模型进行优化、解释和评价。开放性实验要求学生与中药学专业的学生合作,完成红外光谱的采集,理解光谱数据的含义,掌握光谱预处理方法,这些前期工作对于学生深入理解模型、解释模型、优化模型都具有重要作用。总之,通过三个层次的实践教学,学生对决策树算法的理解会更加深入,对数据挖掘理论的掌握会更加坚实,加深了学生对医药领域数据挖掘问题的理解,提高了学生运用数据挖掘理论解决医药领域实际问题的能力。

实践教学资源库的构建和应用也要具有开放性。医学数据挖掘课程的实践教学资源库要随着数据挖掘技术的发展以及医学信息工程专业人才培养方案的调整不断进行更新和优化。例如,针对中医方剂的数据挖掘,可以补充经典的中医典籍和中医医案的数据库,方便学生开展中医方剂的潜语义分析和知识图谱构建等方面的研究。

4 结语

医学数据挖掘课程实践教学资源库的构建对于优化教学资源、提高学生的实践能力和创新能力具有重要作用,实践教学资源库的构建应该具有层次性和开放性的特点,要解决医药领域的实际问题,构建的中医方剂数据库、红外光谱数据库以及影像数据集体现了中医药特色。实践教学资源库的应用强调层次性,只有层层递进,逐步深入,才能夯实学生的数据挖掘理论基础,提高学生解决实际问题和开展交叉研究的能力。同时,实践教学资源库也要随着数据挖掘技术的发展和医药领域的研究热点不断更新和优化,这样才能满足培养医工结合的复合型应用型人才的需要。

猜你喜欢
决策树资源库数据挖掘
健身气功开放课程资源库建设研究
探讨人工智能与数据挖掘发展趋势
一种针对不均衡数据集的SVM决策树算法
贵州●石斛种质资源库
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
基于共享资源库的混合式教学考核模式研究
高中历史信息化教育资源库应用探索
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用