基于数据挖掘技术对心脏病诊断的研究

2018-11-15 01:33董雪
电脑知识与技术 2018年20期
关键词:数据挖掘心脏病

董雪

摘要:近些年来,心血管疾病引发的死亡已经持续成为居民首位死亡原因,而且,心脏病的患病人群也越来越年轻化。因此,心脏病的诊断与治疗已经成为医学研究的重中之重。心脏病种类繁多、影响因素多样,如何提高心脏病的诊断效率已经成为急需解决的问题。针对上述情况可利用数据挖掘技术对心脏病数据集进行分析,从而有助于医生对病情更加精准的诊断。

关键词:数据挖掘;分类算法;心脏病

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)20-0172-02

1前言

心脏病作为一种心血管疾病在生活中随处可见。目前,心血管疾病是我国威胁人民身体健康的几类疾病之一[1],这种疾病已经严影响到我国经济发展的重大问题。面对如此严峻的形势,如何对心脏病的诊断和治疗进行干预已经成为迫在眉睫需要解决的问题。而在信息化迅速发展的时代,将电子科学技术与医学的心脏疾病相结合,是现在研究人员的热门研究问题[2]。经过近几年医学研究人员的不断努力,对心脏病的诊断研究已初见成效,也积累了大量数据供研究人员参考。近几年在世界上迅速发展的交叉学科是数据挖掘学科,他涉及的范围相对比较广泛,包括有统计学学科,人工智能学科,还有机器学习学科,还涉及数据库学科等多个领域。随着科学技术的发展,数据库管理系统应用的范围也相对广泛,对于患者的人数积累也越来越多,数据库信息的增长速度十分快,犹如汪洋大海。若没有强大的处理工具,对数据信息的理解已经超出研究人员的理解能力。因此在数据库中的大型数据由于不能被理解,几乎变成了永埋地下的“数据坟墓”——人们很难再从中提取数据档案,而越来越多的患者数据中隐含着许多重要的信息,决策者常常不是因为数据库中的数据去决定一项决策,而是凭自己的主观臆断。因为他们对提取数据库中有用信息的认识是不足的[3]。医学信息的形式也是多种多样的,这些医学信息对医院的管理、医疗和科研起到了至关重要的作用。采取将数据挖掘理论这一先进的理论应用于医学的研究领域,使得医学研究能够与数据挖掘合二为一,完美的分析所研究的医学数据,从中提取研究人员所需要的、隐藏的、有用的信息,这种方法的提出是医学管理者最明智的决定[4]。

2 数据挖掘技术概述

2.1数据挖掘技术概念

在数据库和数据仓库中,利用不同技术和分析方法,有一项可以对冗余复杂的数据进行分析整理归纳的工作,叫作数据挖掘。做好相对应的分析,可以寻求到很多有价值的信息,并且将这些信息提供给管理者,熟悉其中的规则,甚至还可以预测未来或者指导未来的相关工作。现今,数据挖掘已经在数据库系统,统计方法,机器学习多种学科间占有一席之地。现如今,数据挖掘技术已经被很多行业所广泛使用,诸如金融、互联网、零售、医疗等行业。例如何超等人进行了基于数据挖掘的企业竞争情报智能分析研究,该研究主要从聚类挖掘的角度研究了企业竞争情报聚类分析的方法与算法,研究以k-means算法为技术基础,在基于领域本体的情况下,设计出k-means语义聚类挖掘算法Onto-kmeans;谢丽亚等人将数据挖掘技术与高校就业指导工作相结合,大大提高了高校就业指导的工作效率与质量[5]。

2.2数据挖掘常用数据分类算法

2.2.1人工神经网络

人工神经网络是模仿脑细胞结构和功能、脑神经结构及思维处理问题等脑功能的信息处理系统,他在人脑智能系统的模仿中进行研究,并逐渐拓展新的数据信息表示、信息存储与数据处理方法。这种类型的神经网络主要以神经系统的复杂程度为基础,针对系统内部的数据节点之间的连接方式进行有效的调整,最终实现数据信息处理的目标。他还应用了优于传统人工智能系统与数据信息处理单一的机制,有效弥补了传统单一逻辑方式的人工智能系统在实际的直觉处理、非结构性质数据信息内容的弊端,通过自身良好的适应性、自我组织性与实时学习的特征,针对系统预先提供的大批量互为对应的传输数据,有效分析并掌握二者之间存在的一般规律,针对这些潜在的一般规律,运用新型的输入数据信息系统准确的计算出实际的输出结果。这种人工智能系统是作为一种与目标函数无距离,并且具有高度稳定性和科学性的计算方式。

人工神经网络中的经典算法BP算法的基本思想是,学习过程由信号的正向传播与误差的反向传播两个过程组成。

输入层传入输入样本后,要逐步进行处理,然后再向输出层传播,这是正向传播的过程。如果期望的输出与输出层实际输出不一样,这个时候就会将转入误差进行到反向传播阶段。误差反差是将输出误差以某种特殊方式从隐含层逐层反传到输入层,并且让诸多单元对其误差情况进行均摊,如此就能够得到误差信号。此时该信号能够看成是对诸多单元权值实现修正控制处理的信息参照。此时完成的传播控制是持续展开的,整体处在动态调整控制的时候,借助持续展开的网络学习控制操作来对其进行处理。直到所得能够和网络实现输出要求的误差相符的情况下才能够不再执行训练控制,或者达到之前所设想的学习次数。

2.2.2支持向量机

SVM是目前正在普遍使用的一种机器化的学习方式,它的中文全称是支持向量机,在国外通常被叫做Support Vector Machines。它的先进性主要体现在将组织上的结构风险有效控制在目标范围内,而且还运用了一种全新的理论VC模型。它的具体优势体现在样本值整体偏小、维度值的识别更加简单明了,因此在处理与时间有关的问题上应用就更加广泛了,而且可以在不同的学科之间进行推广,可以见得其应用性非常之广。

2.2.3随机森林

该算法能够看成是分类树(ClassificationTree)支持下实现的算法内容。该算法在实现处理的时候牵涉到模擬控制以及迭代实现两部分,通常被看成是机械学学习内实现操作的算法形式。2001年,Cutler等参照原有的随机决策森林形式给出随机森林概念,是由分类树组合而成,通常用行表示随机数,列表示变量,分别对行和列进行随机取值,生成了很多的树,然后进行分类,就是分类树。

随机森林算法是由决策树来决定的,但是决策树的构建属于是递归控制实现的内容。当理想的时候,全部登记下来的信息都能够执行准确分类控制,得到有效的类型,只是实际操作执行的时候,是很难做到这样的。即便构建获得的模型通常后续得到的节点量也是特别大的,表现出过度拟合情况。实际操作执行的时候,需要对应设定有效的停止处理条件,在来到该条件的情况下,就不在执行决策树相关的构建处理操作。只是这些还是很难完全对过度拟合表现进行有效的控制处理,实际操作执行的时候要能够对其枝叶情况做好修建等控制处理。借助随机森林的形式能够较好对此类情况进行控制处理。

诸多决策树得到的森林在实现分类构建方面需要借助决策树投票的形式来进行处理。决策树在实现生成控制期间,必然会在其各部分表现出较强的随机实现效果,对其进行优化切分控制后,就能够获得所需内容。

随机森林中的每一棵分类树也称作二叉树,每一棵树符合自顶向下的递归分裂原则,也就是从根节点开始进行训练集的划分。二叉树中的根节点符合节点纯度最小原则,又分裂成了两个节点,分别是左节点和右节点。当然这种分裂可以继续进行下去,包含全部训练数据,左节点包含一个子集,右节点也有一个子集。它们持续进行分裂,只有达到满足分支停止规则时它们才可以停止分裂。

3 心脏病临床检测

引发心脏病的原因很多,除上述几个因素外,其中主要原因还包括以下几个方面:

⑴先天性心脏病是目前致使新生儿死亡的最主要原因之一,也是儿童时期最常见的心脏病。

⑵冠心病:目前物质生活条件是以前的几十倍甚至几百倍,很多人会由于饮食习惯的不健康造成很多身体上的不适。

⑶风湿性心脏病:该类疾病致死的人数接近两百万,且亚洲区域出现的致死率严重超出全球该类疾病的平均致死率。

⑷肺源性心脏病:因为肺部、胸廓或者是肺动脉血管部分发生病变,从而导致肺部的循环阻力加大,肺动脉过高,使得右心扩张、过于肥大,最后导致右心逐渐衰竭引发心脏病。

⑸心肌病:对于新陈代谢或者荷尔蒙异常导致的心肌有所变化时,在进行大量的饮酒、服用药物后都可能使心肌发生变化。

⑹心脏肿瘤:心脏的肿瘤会有碎片脱落从而引起栓塞,除此之外,血栓的脱落也会引起栓塞。

⑺其他疾病导致的心脏病:如果患有高血压会导致患心脏病的几率增大,另外免疫机能异常导致的血管病变等也会加大患心脏病的风险。

⑻外界因素的影响:慢性低血压低氧导致的肺动脉高压,也容易引起心脏病变。

4 数据挖掘技术对心脏病诊断的应用

将数据挖掘技术应用在心脏病诊断中首先是对数据的预处理的过程中,先对心脏病数据集的属性进行了详细理解,然后对所有属性进行规范化处理及属性选择。然后采用了BP神经网络算法、支持向量机算法和随机森林算法等数据挖掘分类算法进行建模,确保诸多模型均是参照最好参数来完成构建处理操作的。最后对所建立的多个模型进行评估,并选择最优模型为心脏病诊断模型。

参考文献:

[1] 李学永.中国成人的心血管健康状况[J].中国循证心血管医学杂志,2015,7(3):306

[2] 林伟龙.全球卫生的测量离不开协作与竞争[J].中国卫生政策研究,2015,8(2):26

[3] 王文,朱曼璐,王拥军等.中国心血管病报告2012概要[J].中国循环杂志,2013,28(6):408-412

[4] 陈伟伟,高润霖,刘力生等.中国心血管病报告2013概要[J].中国循环杂志,2014,29(7):487-491

[5] 秦文哲,陳进,董力.大数据背景下医学数据挖掘的研究进展及应用[J].中国胸心血管外科临床杂志,2016,23(1):55-60.

猜你喜欢
数据挖掘心脏病
“心慌”一定是心脏病吗?
中医新解心脏病
重视先天性心脏病再次开胸手术
基于并行计算的大数据挖掘在电网中的应用
我做了七八次产检都正常 孩子怎么有心脏病?
冠状动脉粥样硬化心脏病的护理
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究