基于深度信念网络的乳腺肿瘤辅助诊断研究∗

2019-03-26 08:44许凯波罗广祥孙震辉
计算机与数字工程 2019年3期
关键词:恶性乳腺信念

许凯波 罗广祥 孙震辉

(1.长安大学地球科学与资源学院 西安 710054)(2.中国科学院遥感与数字地球研究所 北京 100101)

1 引言

近年来,乳腺癌的发病率逐年上升,严重威胁着女性患者的身心健康,乳腺癌在发病的初期没有明显的临床症状,不容易被察觉。因此,早期发现、早期治疗是预防和治疗乳腺癌的最有效途径[1]。

传统的基于BP神经网络、LVQ神经网络、支持向量机(SVM)、随机森林、决策树[2~5]的乳腺肿瘤识别判读方法存在很多缺点,如BP神经网络算法存在着收敛速度慢、易陷入局部最优等问题;SVM在二分类问题上效率较高,但是在多分类识别问题上存在着构造分类器困难且分类效率较低的缺点,而且核函数的选择和参数的确定比较困难[6];决策树算法在处理特征关联性较强的乳腺肿瘤特征数据时效率较低;同时上述方法均属于浅层的机器学习方法,学习能力具有一定的局限性,不适应于大量样本的训练,可扩展性较差[7]。深度信念网络(DBN)是深度学习模型的一种,DBN因其强大的特征提取能力已在分类识别问题上得到了广泛的应用,是当前机器学习领域的研究热点[8-9]。

基于以上分析,本文构建了一种基于深度信念网络的乳腺肿瘤识别模型。首先对乳腺肿瘤特征数据进行预处理,然后通过受限波尔兹曼机(RBM)和BP神经网络训练乳腺肿瘤识别模型。最后,将该模型与BP神经网络、决策树和支持向量机(SVM)三种乳腺肿瘤识别方法进行对比。实验结果显示,本文的构建的模型对乳腺肿瘤识别具有更好的识别判读效果。

2 乳腺肿瘤诊断原理

乳腺肿瘤良恶性诊断原理为:首先利用细针吸取乳腺肿瘤细胞,然后采用穿刺针对细胞进行穿刺获得理想的细胞学标本,最后由诊断医师观察和分析细胞形态和细胞质的变化情况,判定其为恶性或者良性肿瘤[10~11]。医学研究表明,乳腺肿瘤的细胞核半径、周长、面积等10个特征因子与乳腺肿瘤有着十分紧密的联系,可以作为判读乳腺肿瘤良恶性的特征,因此可以对获取乳腺肿瘤细胞进行相应特征的提取,建立这10个特征与乳腺肿瘤细胞良恶性之间的关系。设x1,x2,x3,…,x10代表乳腺肿瘤细胞的10个量化特征,y表示乳腺肿瘤细胞的良恶性,则有如下的关系式:

其中,f()表示函数关系,即乳腺肿瘤良恶性识别模型。传统的多元线性回归和浅层的机器学习算法难以对式(1)的函数关系进行准确的拟合,深度信念网络具有非常强的特征提取和非线性拟合能力,因此本文采用深度信念网络建立乳腺肿瘤细胞10个量化特征和其良恶性之间的关系,从而实现乳腺肿瘤细胞良恶性的计算机辅助判读识别。

3 基于深度信念网络的乳腺肿瘤诊断

3.1 深度信念网络算法

多伦多大学的Geoffreyhinton教授[12]在2006年提出了深度信念网络(Deep Belief Network,DBN)。深度信念网络(DBN)是由若干个受限玻尔兹曼机(RBM)和一个BP神经网络组成的深度学习模型。DBN通过多层受限玻尔兹曼机对输入的数据进行提取、抽象,尽可能保留重要特征信息,然后将RBM提取的特征信息输入到BP神经网络,通过有监督的BP神经网络将误差反向传播,自上向下微调整个DBN模型[13]。

3.1.1 受限玻尔兹曼机模型

受限波尔兹曼机(Restricted Boltzmann Machine,RBM)是由Hinton等提出的一种生成式随机神经网络。RBM是一个无监督学习的能量模型,它包括显层(输入层)和隐层(输出层)2层结构,对称连接且无自反馈的随机神经网络模型,层间全连接,层内无连接[14]。RBM网络结构如图1所示,其中底部的v层代表可见层,代表数据输入层,h为隐层,可看作一些特征提取器,W为2层间的连接权重。

图1RBM结构

其中,vi为V层第i个单元的状态;hj为H层第 j个单元的状态;θ={ }wij,ai,bj为 RBM 的参数值,wij为V层第i个单元和H层第 j个单元之间的连接权重值,ai和bj分别为V层第i个单元和H层第j个单元的偏执值。基于能量函数,可以得到(v,h)的联合概率分布为

假定V层有n个显层节点,H层有m个隐层节点,则可见层节点和隐藏层节点(v,h)之间的能量函数为:

RBM学习的本质就是求出θ值来拟合给定的训练数据。

3.1.2 深度信念网络模型

DBN由若干个RBM模型和一层BP神经网络组成的网络结构,其模型结构如图2。DBN通过逐层的训练RBM来完成,首先将原始特征数据输入到第一层的RBM中进行训练,然后将第一层RBM学习得到的数值输入到第二层RBM,重复以上过程直到训练完所有的RBM,最后利用有标签的样本数据通过误差反向传播算法通对该模型的参数进行微调,直至获得满足预期精度的DBN训练模型[15]。

图2 深度信念网络模型

DBN训练过程:

1)从DBN网络最底层开始,采用无监督的方式训练每一层RBM网络,这种逐层训练网络的方式可以尽可能多地提取数据的特征,RBM迭代训练过程如图3。

图3 RBM的迭代训练过程

2)DBN模型最上层是BP神经网络,将经过RBM训练后输出的特征向量输入到BP神经网络进行有监督的训练,利用反向传播算法对整个DBN网络进行参数微调,从而使模型达到最优。

3.2 基于深度信念网络的乳腺肿瘤识别判读步骤

基于深度信念网络的乳腺肿瘤诊断的具体步骤如下。

1)选取训练集和测试集

本文的仿真试验数据来自于威斯康辛大学的Wisconsin Breast Cancer Database为UCI机器学习数据库(UCI Machine Learning Repository)捐赠的Wisconsin Breast Cancer Database数据,该数据集包括357组良性乳腺肿瘤数据和212组恶性乳腺肿瘤数据。本文从乳腺肿瘤数据集中随机选取410组数据作为训练集数据,剩下的159组数据作为测试集数据。数据集中每个样本数据包含半径、质地、周长、面积、光滑度、紧密度、凹陷度、凹陷点数、对称度、分形维数,每个特征向量包括平均值、标准差和最坏值3个指标共30个特征值。

2)数据预处理

为了避免乳腺肿瘤细胞核显微图像特征向量数据之间存在的量纲差异对模型训练造成的影响,对数据进行归一化处理。

3)构建深度信念网络

针对训练数据集的特点,构建初始网络结构,对网络参数进行初始化。

4)对深度信念网络进行训练

将500组乳腺肿瘤数据中的半径、质地、周长等10个量化特征向量作为网络的输入,将每组样本数据对应的乳腺肿瘤良、恶性结果作为网络输出训练深度信念网络。经过多次实验和网络参数的优化,得到最优的深度信念网络模型。

5)乳腺肿瘤的诊断

采用训练好的深度信念网络模型对测试集中69组乳腺肿瘤数据进行诊断识别。

6)诊断识别结果分析

对深度信念网络的仿真识别的结果进行分析,计算该模型对乳腺肿瘤良、恶性识别的准确率,并对基于深度信念网络的乳腺肿瘤识别模型进行评价。

基于深度信念网路的乳腺肿瘤诊断识别的算法流程如图4所示。

图4 基于深度信念网络的乳腺肿瘤识别

4 仿真研究

4.1 数据来源

本文的仿真试验数据来自于威斯康辛大学的Wisconsin Breast Cancer Database为UCI机器学习数据库(UCI Machine Learning Repository)捐赠的Wisconsin Breast Cancer Database数据,该数据集包括357组良性乳腺肿瘤数据和212组恶性乳腺肿瘤数据,每组肿瘤数据包括半径、质地、周长等30个特征数据,数据权威而且可靠[16]。试验所用的部分乳腺肿瘤特征数据如表1所示。

表1 部分乳腺肿瘤特征数据

4.2 试验环境

表2 实验环境

4.3 试验结果与分析

经过多次试验,本文构建了网络层数为4层的深度信念乳腺肿瘤识别判读模型,模型由一个输入层、3个隐藏层和一个输出层组成,模型的第一层有30个节点,对应着输入该模型的30维乳腺肿瘤细胞特征向量,3个隐藏层节点数分别50、50、80,输出层有2个节点,对应着将乳腺肿瘤细胞识别为2类,该模型预训练次数为1000次,参数微调的迭代次数为300次。从569组乳腺肿瘤数据集中随机选取410组数据作为训练集数据,剩下的159组数据作为测试集数据,基于深度信念网络的乳腺肿瘤识别结果如表3所示。

表3 基于深度信念网络的乳腺肿瘤识别结果

由表3可知,在159个测试样本中,良性肿瘤确诊个数为98个,良性肿瘤误诊个数为0个,良性肿瘤确诊率为100%;恶性肿瘤确诊数为60个,恶性肿瘤误诊个数为1个,恶性肿瘤确诊率为98.36%,本文的构建的模型对乳腺肿瘤良恶性识别具有非常好的效果。

为了更加全面地评价本文构建的模型对乳腺肿瘤细胞的识别判读效果,将本文的方法与BP神经网络、LVQ神经网络、决策树和支持向量机等方法进行对比,每种方法分别进行10次试验,计算其平均识别正确率,结果如表4所示。

表4 乳腺肿瘤确诊率仿真平均结果对比

表4可以看出,经过10次仿真试验分析,本文构建的乳腺肿瘤识别模型的良性肿瘤平均确诊率为99.21%,恶性肿瘤平均确准率为98.32%,平均确诊率为98.45%,平均识别精度均高于其他四种方法,表明本文构建的模型对乳腺肿瘤具有很好的识别效果。

5 结语

针对BP神经网络、LVQ神经网络、决策树、支持向量机(SVM)等浅层的机器学习算法对乳腺肿瘤识别精度不高的问题,构建了一种基于深度信念网络的乳腺肿瘤识别判读模型。仿真实验结果表明,该模型对乳腺肿瘤细胞有着很好的识别效果,识别精度优于BP神经网络、LVQ神经网络、SVM、决策树算法,具有一定的医学应用价值。

猜你喜欢
恶性乳腺信念
NEAT1和miR-146a在结核性与恶性胸腔积液鉴别诊断中的价值
基于高频超声引导的乳腺包块导丝定位在乳腺病变中的诊断价值
有一种信念,叫“中国红”
为了信念
恶性胸膜间皮瘤、肺鳞癌重复癌一例
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
探讨超声检查在甲状腺肿块良恶性鉴别中的诊断价值
冠军赛鸽的信念(上)
乳腺贴真的能治乳腺疾病吗
力挽恶性通胀的美联储前主席保罗·沃尔克逝世,享年92岁