PCA-SVM模式分类方法在心电信号分析中的应用

2018-10-24 07:46卞水荣顾媛媛赵强
电子设计工程 2018年20期
关键词:心搏心电电信号

卞水荣,顾媛媛,赵强

(徐州医科大学医学信息学院,江苏徐州221000)

随着社会节奏的不断加速,人们的工作压力越来越大,疾病发生概率也越来越高,心血管疾病是发病率较高的疾病之一。据调查,我国现有的心血管患者数量大约是2.3亿,总患病率达到20%左右,并且还在在逐年上升中。据相关研究预测:到2030年,仅由于人口老龄化与人口增长,中国每年的心血管疾病事件数将上升超过50%,如果考虑高血压、高胆固醇血症以及糖尿病的增长所导致年心血管事件数将额外增长23%,如果不加以控制,在2030年中国心血管疾病患者将增加2130万人,心血管疾病死亡人数将增加770万人[1-2]。因此,心血管疾病的尽早诊断和治疗对国民健康来说就显得尤其重要。

在心血管疾病的诊断中,心电信号的参考价值最大,而心电图检测正是目前心电信号诊断的最常用的医疗检测方法,具有廉价、易行、无创等优点[3-4]。它与以前的听诊相比,提供了更加精准的心脏疾病的诊断依据。然而传统的人工读心电图诊断心血管疾病的方法效率低,受到医生主观因素的影响大,有一定误诊率。如果能够在医生做出诊断之前对所采集的心电信号进行智能分析分类,提供一定的诊断参考支持,那么将会大幅提高医生的工作效率以及诊断准确率。

1 基于ECG特征的分类研究现状

1959年世界上第一个用于区分正常与异常ECG的程序由美国人Pinbeopr等人完成,是人类对心电信号自动分析的最早研究。随着科学技术、方法的发展,心电信号的自动分析和诊断技术不断得到改进和完善,实现了从理论研究到应用的跨越。

心电信号的分类是帮助医生实现心电信号智能诊断的基础,这些年的发展已经有很多分类方法,比如聚类算法、神经网络、支持向量机。

1)聚类算法,是一种无监督的方法。经典的是K-means和K-medoids算法,它将数据分为k类,各类内部数据间距离近,各类之间数据间距远。距离的类型有闵可夫斯基距离、曼哈顿距离、欧几里德距离、切比雪夫距离[5]。何云斌等人提出了基于均方差属性加权的遗传模拟退火K-means改进聚类算法[6],该算法对心电信号进行了有效分类,准确率高于传统的K-means算法。

2)神经网络方法,可以实现并行处理ECG特征的大量判断规则。径向基函数(RBF)网络是其中的一种,该网络结构简单,学习的收敛速度快。RBF网络对心电信号的分类能力强,速度快[7]。

3)支持向量机,目前已成为主要的模式识别方法之一,应用范围广泛,可以在模型复杂性和学习能力之间找到最佳平衡点。

2 ECG信号数据准备

2.1 MIT-BIT心律不齐数据库简介

心电数据库作为现在医学数据库的重要组成部分之一,发挥着临床研究的重大意义及价值,其往往作为研究心电自动分类诊断研究的主要数据源。为了保证心电数据库中数据的权威性,它的建立必须有严格标准和必要的技术要求,包括医学仪器设备标准、医学分类及诊断标准。

目前有3个国际公认的可作为心电权威的标准数据库,分别是美国麻省理工学院MIT-BIH的心率失常数据库、美国心脏学会的AHA心电数据库、欧洲的ST-T心电数据库[8]。其中MIT-BIH心率失常数据库采集了1975-1979年间在Bethlsrael医院心率失常实验室的4000多个动态心电图数据。数据库中含48个记录,每个记录的时间可达到30多分钟。每条记录有两个导联的数据,第一导联通常是肢体导联MLII,第二导联通常是胸前导联V1或V5。数据库中既包含常见的心电图波形,为“100”系列:#100~#109、#111~#119、#121~#124,共 23组数据;也有部分罕见的心率失常心电图波形,为“200”系列:#200~#203、#205,#207~#210、#212~#215、#217、#219~#223、#228、#230~#234,共 25组数据。本研究就是基于MIT-BIH心率失常数据库进行的。

2.2 MIT-BIT数据库心电信号统计

MIT-BIT心率失常数据库中主要心搏类型如表1所示:

表1 MIT-BIT心率失常数据库主要心搏类型

在各个样本中的主要心搏类型数量统计如表2所示。

为保证有足够的实验数据,本研究选择了8类主要的心搏类型。“正常心博N”选择的是115号样本;“左束支传导阻滞心搏L”选择的是111号样本;“右束支传导阻滞心搏R”选择的是118号样本;“房性早搏A”选择的是232号样本;“室性早搏V”选择的是208号样本;“心室融合心跳F”选择的是213号样本;“起搏心搏P”选择的是107号样本;“起搏融合心跳f”选择的是104号样本。

通过调用matlab命令文件“rddata.m”,通过读取.atr、.dat、.hea文件的信息读取并展示心电信号,调用matlab命令文件“rddata.m”的结果如图1所示。

3 心电信号分析

3.1 主成分分析方法(PCA)

主成分分析方法(Principal Component Analysis,PCA)是一种数学分析方法,应用领域很广,常用于多变量问题的分析。这一概念最早由Karl parson在1901年提出,并且被用于分析非随机变量。在1933年Hotelling推广这一概念,将该方法用于分析随机变量[9-10]。主成分分析方法(PCA)是在初始特征空间中经K-L变换找出新的较低维坐标系表示原特征空间。假设原特征矩阵为XN×M,则PCA的目标就是提取特征降维成,其中L<M。L是所降到的维数,该L维特征向量因为是主成分,所以也可以代表原矩阵。比较常用的一个约束条件是满足能量大于原始矩阵的90%,即因此,最后的求得降维后的特征矩阵此处A的特征向量是列向量。

表2 各个样本中的主要心搏类型数量统计

图1 使用matlab读取心电信号源文件

3.2 支持向量机(SVM)

Corinna Cortes和Vapnik在1995年首次提出了支持向量机(Support Vector Machine,SVM),用于模式分类和非线性回归。这种方法结合统计学习理论的VC维理论和结构风险最小化原理,然后依据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中,从而获得最好的推广能力[11-13]。

文中所用的心电心搏类型分类的数据来源及提取的初始特征向量组数如表3所示。

表3 心电类型来源及提取的特征向量

文中选择这8类心搏的数据各前80组,组成总的分类数据。再对这8类数据分别赋予类别标签“1、2、3、4、5、6、7、8”存在类别标签变量中。将这 8类样本的前50%组作为训练集,后50%组作为测试集,即训练集共有320组、测试集共有320组。我们先通过使用训练集对SVM进行训练,再用训练得到的模型对测试集进行类别标签预测。SVM分类过程如图2所示。

图2 SVM分类过程

文中的SVM采用libsvm-mat-2.89-3版本的工具箱,选择线性核函数[14-15]。数据在分类前先做归一化处理。

分类结果如图3所示,心搏分为8类,圆圈表示实际测试集分类,星号表示预测测试集分类,两者的重叠越高说明分类准确率越高。此处分类预测的准确率是97.8125%。

图3 SVM方法对心电信号的分类

3.3 PCA-SVM模式分类

为了降低心电初始特征向量的冗余信息,有效提高心电心搏类型的分类准确率,本文使用PCASVM的模式分类方法[16]。该PCA-SVM方法先使用PCA方法对较高维的心电初始特征向量降维,然后再对降维后的心电特征向量进行SVM分类。过程如图4所示。

图4 PCA-SVM分类过程

研究提取了含有241个数据点的心电分类波段被记为初始心电特征向量。使用PCA方法对初始心电特征向量进行降维。为了找到最佳PCA下降到的维数,设置迭代PCA次数为20,每次迭代输出PCA的能量率和SVM预测准确率,最终显示出分类准确率最高的分类图形并输出对应的特征向量所降到的维数及最高分类准确率。

PCA-SVM方法对心电信号的分类结果如图5所示,PCA-SVM方法分类预测的准确率达到99.0625%,PCA方法使初始心电特征向量维数降到10维。

图5 PCA-SVM方法对心电信号的分类

4 结论

本文针对心电信号的分类特点,选用MIT-BIH心率失常数据库中8类心率失常数据进行多组相同条件下的分类实验,分别运用SVM模式分类方法和PCA-SVM模式分类方法进行分类。经过实验发现,SVM模式分类方法的分类准确率为97.8125%,而PCA-SVM模式分类方法的分类准确率为99.0625%,比SVM模式分类准确度提高了1.2%。由实验数据结果可知,在相同的情况下PCA-SVM模式分类方法相对于SVM模式分类方法确实可以提高心电心搏类型分类的准确率,实现提高心电心搏类型分类准确率的目的。

猜你喜欢
心搏心电电信号
基于联合聚类分析的单通道腹部心电信号的胎心率提取
心电向量图诊断高血压病左心室异常的临床应用
基于非接触式电极的心电监测系统
穿戴式心电:发展历程、核心技术与未来挑战
基于Code Composer Studio3.3完成对心电信号的去噪
更正启事
呼气末二氧化碳分压值对预测心搏骤停患者复苏的意义探讨
基于随机森林的航天器电信号多分类识别方法
突然倒地怎么办?
心搏骤停患者不同心肺复苏程序的预后及病因分析