基于电阻抗频谱的乳腺组织分类

2015-02-27 00:55李昌兴常甜甜
西安邮电大学学报 2015年6期
关键词:训练样本分类器频谱

李昌兴, 刘 畅, 常甜甜

(1. 西安邮电大学 理学院,陕西 西安710121; 2. 西安邮电大学 通信与信息工程学院,陕西西安710121)

基于电阻抗频谱的乳腺组织分类

李昌兴1, 刘 畅2, 常甜甜1

(1. 西安邮电大学 理学院,陕西 西安710121; 2. 西安邮电大学 通信与信息工程学院,陕西西安710121)

针对乳腺癌早期辅助检测与诊断问题,提出一种改进的基于电阻抗频谱特性的乳腺组织分类算法。根据人体电阻抗特征数据特点,利用主成分分析法降低数据维数和去除噪声,然后采用支持向量机对数据进行分类。由此结合主成分分析和支持向量机,得到改进的分类算法。实验结果表明,改进的分类算法可以有效地对乳腺组织进行分类,准确率达80%以上,特别对乳腺癌和脂肪组织的分类准确率超高95%。

电阻抗;乳腺组织;支持向量机;主成分分析;频谱

乳腺疾病是妇女的多发病,该疾病的发病率逐年递增,其死亡率高达40%以上,发病年龄也呈现年轻化的态势,严重威胁着现代女性的健康。因此,乳腺疾病的早期检测与诊断成了现代在医学界非常重要的研究问题之一。对乳腺癌的诊断主要使用电阻抗成像[1]技术。随后学者们对乳腺组织的电阻抗频谱数据进行研究,实验发现乳腺组织的电阻抗频谱数据随着组织病理生理状态发生改变而变化[2]。因此,利用乳腺组织的电阻抗频谱数据辨识乳腺组织的状态,就可诊断病人是否患有乳腺疾病。

乳腺组织频谱测量的设备性能随着测量技术的发展得到进一步的提升和改善。测量频率的不同,组织的电阻抗值也随之不同,阻抗频谱的概念由此诞生[3]。人体组织的低频阻抗较大,而高频阻抗较小,并且电阻抗的特性随频率发生变化,这种特性称作电阻抗频谱特性[4]。

根据人体乳腺组织具有的电阻抗特性,最初只是应用线性判别分析方法(Linear Discriminant Analysis, LDA)[5]对乳腺组织特征数据进行分类。近些年支持向量机(Support Vector Machine, SVM)[6-7]的方法被广泛应用于癌症和疾病的诊断研究中。但上述两种方法都存在着分类精度不高的问题,因此为了提高分类准确率,本文提出将支持向量机与主成分分析法(Principal Component Analysis, PCA)相结合的PCA-SVM分类算法。利用乳腺组织的电阻抗频谱数据,采用主成分分析法对数据降维去噪,然后应用非线性分类器支持向量机算法对乳腺组织进行多类数据分类以辨识乳腺组织的病变情况。

1 SVM算法与PCA算法概述

1.1 SVM算法原理

支持向量机[8-9](Support Vector Machine, SVM)是一种新的数据挖掘技术,主要用它来解决分类及回归问题。该算法的实质是通过一个非线性映射将线性不可分问题转换为线性可分问题进行计算。其原理为利用核函数来进行低维到高维的线性映射,在运算过程中不需要知道非线性映射的显式表达式,因此这种分类方法既不会增加计算量,同时又避免了升维带来的复杂计算。

标准支持向量机算法的原始问题,也就是在高维的特征空间中寻找并建立最优分类超平面的过程[10],即

(1)

其中:l代表整体样本数量;xi∈Rn为支持向量机的输入指标向量,y∈{-1,1}为xi所属类别(i=1,…,l);k(xi,xj)为核函数;w为超平面的法向量;b为超平面的偏置;xi是松弛变量;C为惩罚因子。

1.2 PCA算法原理

主成分分析法[11](Principal Component Analysis, PCA)是一种无监督的降维方法。这种降维方法是通过将具有多个参数指标数据化简为少量综合参数指标数据的统计分析方法。在实际问题中,它的基本思想是用少量的综合信息来表示原来的大量信息,然后再对新的综合参数指标进行统计分析。对少量的综合参数指标有两个要求:(1)用尽可能少的指标来尽量全面的包含原来样本的特征;(2)综合后的参数信息相互之间无关联。PCA的基本原理是通过正交变换的方法把高维空间中的原始数据投影到低维空间中,同时将低维子空间中类别与类别间的相关性降到最低。同时,特征分解协方差矩阵,得到特征向量与特征值,其中特征向量就是样本数据的主成分,特征值为样本数据主成分的权重。

PCA求解能够转化为求最大值的数学问题[11]

(2)

其中:St为总散度矩阵;I为单位矩阵。

2 PCA-SVM算法

PCA-SVM从降低训练样本维度入手,来提高SVM的分类性能,选用PCA算法来降低数据维数和去除噪声,然后采用支持向量机对数据进行分类,这样的结合可以有效的减少大规模数据的训练建模时间,从而提高了数据的训练效率,同时提高了分类准确率。由此结合主成分分析和支持向量机的优点,得到PCA-SVM分类算法,将该算法应用于电阻抗光谱学的乳腺组织数据分类上,改善SVM性能。

基于PCA降维的SVM分类算法的具体过程如下。

步骤1输入电阻抗光谱特征数据。

步骤2将样本集中所有样本利用PCA分析法进行无监督降维和去除噪声处理,得到降维后的数据集。PCA分析由式(2)进行Matlab仿真实现。

步骤3将降维后的一部分特征数据作为训练样本与测试样本输入到SVM分类器中进行分类。SVM分类器由式(1)进行Matlab仿真实现。

实验处理分类问题过程中SVM学习机器的核函数选用RBF,即

步骤4输出测试样本的分类结果即类别标号。

通过测试样本输出的类别标号信息与测试样本实际的类别信息进行对比,来计算分类器的分类准确率

评估模型的优劣。其中ni为第i类的样本数,n为样本总数,i为类别标号。

步骤5记录程序运行时间,通过运行所需的时间以及分类准确率对分类器进行整体性能分析。

3 实验结果及分析

利用LDA算法、SVM算法和PCA-SVM算法对真实乳腺组织数据进行对比性实验,来验证改进算法的有效性。

3.1 实验数据

实验采用美国UCI[5]数据库的Breast Tissue样本集。该数据样本集由106个实体的乳腺组织利用电阻抗光谱学的特性进行9个特征提取而得到的。该数据集属于多类,其中包括6个类别标签。利用这个数据集来验证算法的分类性能。

在实验过程中,无论建模和预测时的样本数量是多少,其样本均需要从6类属性中等比例随机选出,这样得到的实验结果具有较强的普遍性。RBF核函数中的σ参数值取0.1。运行程序,最大迭代次数设为50次,取10次最优分类准确率,最后以每种情况下的10次最优准确率均值作为最终分类结果。

3.2 实验结果

3.2.1 训练样本数量对算法性能的影响

为了验证PCA-SVM分类学习机器的有效性,对乳腺组织样本集数据进行对比性实验。LDA、SVM和PCA-SVM对乳腺癌组织和纤维腺瘤组织进行分类实验得到的准确率结果分别如图1和图2所示。实验中固定训练样本数量分别为15、30、45、60、75、90,剩余样本作为测试样本集。

图1和图2给出了LDA、SVM和PCA-SVM对数据分类的准确率随训练样本数目的变化趋势,可以得到结论:(1)分类准确率随训练样本数目的增多明显提高,说明训练样本越多,学习模型越精密,当有足够样本的情况下,用分类器预测类别的精度是非常可观的。(2)PCA-SVM分类算法的分类精度优于其他两类分类算法,尤其对于乳腺癌组织数据,分类准确率随训练样本增加而提高。(3)由表1能够发现虽然PCA-SVM分类算法把数据分类的精度提高了,但同时增加了运算的时间。

图1 3种方法对乳腺癌分类结果比较

图2 3种方法对纤维腺瘤分类结果比较

表1 3种分类算法运行时间对比

3.2.2 固定训练样本数目

为了体现PCA-SVM算法分类的有效性,固定训练样本数目选取数据集中的74个样本建模,对剩余36个样本分类,即用来预测的样本个数分别为乳腺癌6个、纤维腺瘤5个、乳腺病6个、腺体组织5个、结缔组织4个和脂肪组织6个。分类过程中数据随机选取,实验结果如表2所示。

表2 基于LDA与PCA-SVM分类算法的实验结果

表2中后6列为累加5次随机试验结果,主对角线上的数字代表被正确分类的样本,分类准确率即被正确分类的样本数除以该类总的样本数。从表2可以看到,总体的分类准确率能够达到80%以上,乳腺癌的分类准确率能达到100%,脂肪组织的分类准确率也在95%以上。

同时从表2中能够发现:(1)虽然整体分类准确率得到了提高,但是纤维腺瘤组织的分类准确率提高不明显,其原因由图2能够给出,当训练样本数量为75时,使用LDA分类算法的分类准确率在此时大幅提高,而使用PCA-SVM算法的分类准确率随训练样本数量的增加呈稳步上升趋势,因此就总体水平而言,PCA-SVM分类算法的分类准确率均高于使用LDA算法得到的准确率。(2)当训练样本数量为75时,使用PCA-SVM算法得到的分类准确率较低于LDA算法的准确率。由于结缔组织属于未发生病变的正常组织,虽然分类准确率较低于LDA算法的准确率,但是它并不影响PCA-SVM算法的整体分类准确率。对于结缔组织而言,使用两种分类算法得到的分类准确率无较大差异。(3)将使用两种分类算法得到的实验结果进行对比,由于本文采用非线性分类器SVM,通过对数据库中样本数据归一化处理,PCA降维等一系列的数据处理及分类器的调整,可以看出PCA-SVM的分类算法大幅度的提高了分类准确率,说明PCA-SVM分类器的分类效果要好于LDA分类器。

4 结束语

结合SVM和PCA各自的优势,得到PCA-SVM分类算法,将该算法应用于电阻抗测量得到的9个乳腺组织特征数据上,实验结果表明改进的分类算法可以对乳腺组织进行分类,能够有效地辨识正常乳腺组织及恶性肿瘤组织,准确率达80%以上,特别对乳腺癌和脂肪组织的分类精度超过95%,同时增加的计算时间也是在可接受的范围内。

[1] 常甜甜,魏雯婷,丛伟杰. 电阻抗成像的稀疏重建算法[J]. 西安邮电大学学报,2013, 18(3): 92-96.

[2] Debnath B, Samir K B, Tai-hoon K. Diagnosis of breast cancer by tissue analysis[J]. Chinese Journal of Cancer Research, 2013, 25(1): 39-45.

[3] 李昕,李红红,李丛,等. 一种电阻抗频谱法自动诊断乳腺组织疾病优化算法研究[J]. 中国生物医学工程学报,2013, 32(2): 154-160.

[4] 廖琪梅,董秀珍,付峰.人体乳腺组织电阻抗特性的研究[J]. 国际生物医学工程杂志,2006, 29(4): 218-221.

[5] Estrela J, Marques J P, Jossinet J. Classification of breast tissue by electrical impedance spectroscopy[J]. Med & Bio Eng & Computing, 2000, 38(1): 26-30.

[6] 李阳,文敦伟,王珂,等. 多核学习矩阵化最小二乘支持向量机算法及肺结节识别[J]. 2014,44(2): 508-515.

[7] 袁前飞,蔡从中. 基于支持向量机的癌症诊断研究[D]. 重庆:重庆大学,2007:6-24.

[8] 常甜甜. 支持向量机学习算法若干问题研究[D].西安:西安电子科技大学,2010:13-45.

[9] 陈潇,李雷,范小岗. 基于支持向量机的非线性多用户检测[J].西安邮电学院学报, 2008, 13(1): 82-85.

[10]方辉,王倩. 支持向量机的算法研究[J].长春师范学院学报:自然科学版,2007, 26(3): 90-91.

[11]Zheng Chunhong, Jiao Licheng, Li Yongzhao. Support vector classifier based on principal component analysis[J]. Journal of Systems Engineering and Electronics, 2008, 19(1): 184-190.

[责任编辑:祝剑]

Breast tissue classification based on electrical impedance frequency spectrum

LI Changxing1, LIU Chang2, CHANG Tiantian3

(1.School of Mathematics, Xi’an University of Posts and Telecommunications, Xi’an 710121,China;2.School of Communication and Information Engineering, Xi’an University of Posts and Telecommunications,Xi’an 710121,China)

A method about the breast tissue classification is proposed based on the electrical impedance spectral characteristics with an aim for the early diagnosis problem of the breast disease. According to the characteristics of body electrical impedance data with the selection of the principal component analysis to reduce data dimensionality and noise removal, the breast tissue can be classified by the support vector machine classifier. Experiment results show that this method can classify the breast tissue effectively with an accuracy of more than 80%. Particularly, the classification efficiency for breast cancer and fatty tissue are more than 95%.

electrical impedance, breast tissue, support vector machine, principal component analysis, frequency spectrum

2015-3-16

陕西省教育厅专项科研计划资助项目(14JK1658)

李昌兴(1962-),男,教授,从事矩阵理论、小波理论及其在图像处理方面的应用研究。E-mail: 13072957879@163.com 刘畅(1990-),女,硕士研究生,研究方向为信号与信息处理。E-mail: liuchang0803@qq.com

10.13682/j.issn.2095-6533.2015.06.021

TN911.23

A

2095-6533(2015)06-0098-04

猜你喜欢
训练样本分类器频谱
一种用于深空探测的Chirp变换频谱分析仪设计与实现
人工智能
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
基于小波神经网络的网络流量预测研究
宽带光谱成像系统最优训练样本选择方法研究
频谱大师谈“频谱音乐”——法国作曲家缪哈伊访谈记
基于半监督学习方法的软件故障定位研究
遥感卫星动力学频谱规划
基于层次化分类器的遥感图像飞机目标检测