基于系统聚类和SVM 模型的乳腺癌诊断研究

2020-03-24 03:49樊重俊朱人杰熊红林
智能计算机与应用 2020年11期
关键词:特征选择聚类乳腺癌

余 莹,樊重俊,朱人杰,2,熊红林,3

(1 上海理工大学 管理学院,上海 200093;2 同济大学附属东方医院,上海 200120;3 万达信息股份有限公司,上海 201112)

0 引言

近年来乳腺癌的多发以及所带来的严重后果已经在全球范围内引起了广泛关注,乳腺癌是影响成年女性的主要慢性疾病之一。全球范围内每年都有约1 000 万的女性被诊断出罹患乳腺癌,并且超过50 万女性死于乳腺癌[1]。随着现代经济的发展和医疗技术的进步,有大量的资源和现代技术可以应用于乳腺癌的筛查、诊断和控制工作。对于医生来说,要从大量的癌症病例当中详细了解每一个癌症患者的特征是十分困难的。因此,数据分析方法可以成为医生做出癌症诊断决策时的重要助手[2]。

早在1999 年,Pena-Reyes 和Sipper[3]提出了一种模糊遗传算法诊断乳腺癌。其研究结果表明,数据挖掘技术已成功应用于癌症预测中,传统的乳腺癌诊断已转化为数据分析领域的分类问题。现有的乳腺癌数据集被分为良性和恶性两类,通过历史肿瘤数据训练得到合适的分类器,来预测新的肿瘤数据。但随着描述肿瘤特征数据的增加,分类器的计算时间也急剧增加,在这种情况下,乳腺癌诊断的基本要求不仅是准确性,还包括时间复杂度。考虑到时间效率,如何从庞大的数据集中挖掘和提取必要的信息、过滤特征成为一个新的问题。

Akay(2009)[4]提出了一种基于SVM 与特征选择相结合的方法来进行乳腺癌诊断。通过使用F分数[5]来计算特征价值,选择原始肿瘤特征的最佳子集进行SVM 训练。

Akay(2009)[4]提出了一种基于SVM 与特征选择相结合的方法来进行乳腺癌诊断,通过使用F 分数[5]来计算特征价值。进而为了找到最佳的参数设置组合,使诊断准确率达到最高,进行了耗时较长的网格搜索,选择原始肿瘤特征的最佳子集进行SVM 训练。Prasad、Biswas 和Jain(2010)[6]尝试了启发式算法和SVM 的组合,以找出用于SVM 训练的最佳特征子集。但是,这些方法的共同缺陷是,仅仅使用分类精确率作为评估不同特征选择方法的标准,而忽视了对不同子集进行详尽训练,以获得具有最佳诊断精确率的最优子集所消耗的大量模型训练时间。

因此,本文提出了基于系统聚类和支持向量机的组合模型。系统聚类算法作为一种无监督学习算法提取肿瘤特征,以识别肿瘤数据的隐藏模式,只在原始特征空间上进行聚类,不仅可以以更加紧凑的方式保留所有单个特征信息,而且避免了在不同子集上进行迭代训练,以节约模型训练时间。基于特征选择的结果,应用从属函数计算这些隐藏模式与每个肿瘤之间的相似性,并将其作为新的特征对原始肿瘤数据进行特征重建,最后应用SVM 算法对重建后的数据集进行分类。

1 研究方法

1.1 基于系统聚类的特征选择方法

系统聚类,也称层次聚类,是统计学方法中的一种聚类算法,其原理简单。首先,将所有样本本身归为一类,类与类之间的距离就是它们所包含的样本之间的距离;然后找出距离最近的两个类将它们合并为一个类,重新计算新生成的类与旧类之间的距离;不断重复以上步骤直到所有样本归为一类[7]。本文采用欧式距离计算距离矩阵,并采用离差平方和法判断类与类之间的距离。基于方差分析的思想是:如果分类正确,则分类结果应该满足,同类样本之间离差平方和较小,而异类样本之间离差平方和较大。

特征选择过程也可描述为数据转换过程,是将特征数据转化为定量的数据结构,以方便训练模型的过程。特征选择在具有高维特征空间的大规模数据中起着重要的作用。当训练数据为高维数据时,这个过程可以用来消除不必要的训练信息,在保持训练精度的同时,缩短总体训练时间[8]。特征选择的原则是,在不影响后续分类分布结果,不降低准确率及提取的特征子集应为稳定且适应度强的集合基础上,提取尽可能小的特征子集。在统计学中,特征选择的统计模型一般使用数学统计模型建立,以数学方程式的形式表示变量之间的函数关系。通过计算模型的残差平方和大小,评价模型的拟合程度。在对原始数据进行系统聚类后,需要对聚类结果进行相似性度量,从而决定最佳类的个数,相似性度量的方法如式(1)、式(2)[9]所示:

其中,davg是同一类sk中每个成员i到质心μk的平均距离;dmin表示任意两类质心之间的最小距离;表示成员i的第j个输入元素;表示质心μk的第j个输入元素;N是数据点的总数;F是输入向量的维数。

最佳聚类数K*,通过使用如下方法求出最小有效率θ来获得,如式(3)所示[9]:

其中,θ是评估聚类数有效率的量值。θ求得最小值的过程,也是每个成员与其簇质心的平均距离davg不断减小,而任意两个簇质心之间的最小距离dmin不断增加的过程。即在通过有效率θ求解最佳聚类数K*的过程中,也满足了类内距离小、异类间距离大的条件。

当K的取值接近特征数目时,则无法找出隐藏模式;当K取值较小时,才会较明显地显示出隐藏模式。

1.2 特征重建

进行特征选择后,需在原始数据集的基础上进行特征重建。此时,未测试数据与之前步骤中选择出的新特征之间的相似程度,在新数据集的特征重建中扮演着重要的角色。因此,计算原始数据与各新特征之间相似性的从属函数极为重要。从属函数计算如式(4)、式(5)所示[9]:

其中,c是新模式的指标,是原输入i的第j个特征,是通过系统聚类得出的类Sc的中心μc的第j个特征,Km和Kb分别是通过系统聚类得出的良恶性隐藏模式的数目。

通过ρic,可刻画肿瘤i 和肿瘤模式Sc之间的相似度程度,ρic的大小反映了二者的相似度,数值越大,相似度越高。将通过系统聚类提取的新模式作为肿瘤新的抽象特征,并通过从属函数计算所有原始肿瘤数据与肿瘤模式Sc之间相似程度,将其组成新数据,完成特征重建。

1.3 支持向量机分类

基于前两步的操作,数据的特征维度已经减小,并且具有新特征的数据集已经重建,可以应用传统的机器学习算法。由于支持向量机算法(SVM)自身的优势,对于线性可分的二分类问题,可通过找到一个最优分界面将两类分开;对于线性不可分的二分类问题,可利用核函数实现在高维特征空间分类。支持向量机算法在小样本、非线性及高维模式应用中具有优势,故本文选择支持向量机算法进行分类[11]:

其中,x是训练向量;y是与训练向量相关的标签;α是分类器超平面的参数向量;K·() 为核函数;L是由惩罚参数决定的错误分类数量。

2 实验及结果

2.1 乳腺癌数据描述

本文使用的数据来自加州大学尔湾分校的威斯康星州诊断性乳腺癌(WDBC)数据集。该数据集包含每个细胞核10 个类别的32 个特征,其分别是:半径、纹理值、周长、面积、光滑度、紧密度、凹度、凹点、对称性、分形维数。对于每个类别,分别测量3 个指标:平均值、标准误差和最大值,包括样本的名称和类别一共32 维,共包含569 条数据,见表1。

2.2 H-SVM 算法

使用H-SVM 算法对乳腺癌数据进行诊断。为了对特征进行降维,分别在良性数据集和恶性数据集上使用特征选择方法提取肿瘤数据的隐藏模式,在判断最佳聚类数时,应用式(1)、(2)、(3)得到K*,在特征选择的基础上,利用式(4)、(5)进行特征重建,最后应用SVM 算法进行分类。整个算法流程[10]如图1 所示。

表1 WDBC 数据集分布描述Tab.1 Summary of WDBC data attributes

图1 H-SVM 算法流程Fig.1 H-SVM algorithm flow

2.2.1 数据预处理

数据预处理过程主要包括二个方面,一是分离良性数据集与恶性数据集;二是数据标准化。

(1)良恶性数据集分离。由于在进行肿瘤隐藏模式识别时,良性肿瘤与恶性肿瘤的隐藏模式是分别存在的,而原数据集中良性肿瘤数据与恶性肿瘤数据则混合在一起。原数据中第二维为数据分类的标识,在进行数据集分离时只需按照B(良性肿瘤数据集)或M(恶性肿瘤数据集)筛选分离即可。

(2)数据标准化。在进行系统聚类分析前,需对数据集中标签属性进行归一化处理,以消除量纲对相似度的影响。即消除对聚类过程中相似矩阵计算的影响,从而获得一个更优的聚类结果。归一化公式如式(7):

其中,i为数据集的第i个属性;j为数据集的第j条记录;xij为数据集某属性原始记录;和分别为数据集里第i个属性中的最大值和最小值。

2.2.2 特征选择

首先,分别对良性肿瘤数据集与恶性肿瘤数据集进行系统聚类。图2 为聚类结果谱系图(其中(a)为良性肿瘤数据聚类谱系图,(b)为恶性肿瘤聚类谱系图)。由图可见,系统聚类在良恶性肿瘤数据集上有很好的聚类效果,能够比较清晰地体现出类别的层次,即乳腺癌肿瘤数据的隐藏模式明显,各隐藏模式之间差距较大。

图2 肿瘤数据系统聚类图Fig.2 Hierarchical graph

进行特征选择时,利用式(1)、(2)分别求得良恶性肿瘤数据对应的有效率,其中聚类数K的取值范围为(2,30)。聚类产生的每一类,代表一个肿瘤的隐藏模式;每一个类的类中心,代表该隐藏模式的类中心。利用式(3)求得每个簇的θ值,如图3 所示。从图3 中可以看出,在取值范围内,有效率θ有一个最小值。即当良性肿瘤类别数Kb=10 时,θb求得最小值;当恶性肿瘤类别数KM=5 时,θm求得最小值。根据本文算法,以最紧凑的模式保留原始特征得到良、恶性肿瘤的最佳隐藏模式数分别为10 种和5 种。如图5 所示。

图3 肿瘤模式K 值的确定Fig.3 Determine K for tumors

2.3 分类结果

分类算法结果的正确性用准确率来衡量,准确率越高说明分类的效果越好。本文H-SVM 算法在WDBC 数据集上应用的准确率为96.5%。其计算公式为式(8)所示:

其中,TP是真正数;TN是真负数;FP是假正数;FN是假负数。

就准确率而言,本文提出的H-SVM 算法与仅使用SVM 算法进行分类比较,保证了高的预测精度;另一方面,H-SVM 算法是通过将原始数据进行特征选择以减少特征空间的维度,然后特征重建转换为新的数据集。从计算时间的角度来看,所提出的方法通过减少输入特征的数量,显著减少了训练时间。表2 中将计算时间与传统的SVM 算法进行了比较,显示了选择和提取特征的重要性。

表2 结果比较Tab.2 Result comparison

3 结束语

本文提出了一种基于系统聚类的特征选择与支持向量机的组合模型(H-SVM)分类方法,并将实验结果与SVM 算法进行了比较。在特征选择阶段,使用系统聚类来识别乳腺癌的隐藏模式,将数据集与隐藏模式之间的相似性作为新肿瘤特征数据集,以此判断待测肿瘤数据是否为恶性肿瘤。该算法通过特征提取和选择对原始肿瘤数据集进行降维,在不减少样本数量的前提下,将其重建为更加紧凑的新数据集。实验结果表明,本文提出的算法与仅使用SVM 算法比较,不仅在精确率上由原来的95.3%提高到97.5%,而且也明显降低了模型的训练时间,由15.8913s 减少到0.208 8 s。

本文使用H-SVM 对WDBC 数据集进行诊断的精确率为97.5%,说明分类算法还存在优化空间。探索在不增加模型训练时间的前提下,进一步提高分类精确率将作为下一步的研究方向。

猜你喜欢
特征选择聚类乳腺癌
一种傅里叶域海量数据高速谱聚类方法
绝经了,是否就离乳腺癌越来越远呢?
中医治疗乳腺癌的研究进展
一种改进K-means聚类的近邻传播最大最小距离算法
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
别逗了,乳腺癌可不分男女老少!
基于智能优化算法选择特征的网络入侵检测
故障诊断中的数据建模与特征选择
reliefF算法在数据发布隐私保护中的应用研究
一种多特征融合的中文微博评价对象提取方法