基于LSTM的循环神经网络模型确立睡眠与病例诊断结果的关系

2018-04-12 08:10孙瑞彬
科技与创新 2018年7期
关键词:错误率准确率神经网络

米 硕,孙瑞彬,李 欣,明 晓

(山东科技大学,山东 济南 250000)

我们对数据进行归一化,然后使用SPSS软件对各个指标与睡眠质量进行了相关性分析,接着通过Matlab以睡眠质量为因变量使用逐步线性回归方法剔除了相关性较小的指标,保留了Age、Sex和Nervousness三个指标,最后使用遗传算法求解这三个指标与睡眠质量的相关性权重,得到了这三个指标对睡眠质量的重要性权值分别为[0.5394 0.0002 0.4604]。基于上述条件,我们利用数据进行建模分析,进一步确立了睡眠与病例诊断结果的关系。

1 数据预处理

1.1 异常值处理

我们使用Excel并结合 AnnexⅡTranslation中的数据对附件中的数据进行了异常值的检测,发现Diagnosis中存在部分异常值和空值,比如“?”,“Xia Yong”等,由于异常数据量较少,因此,我们剔除了含有异常数据的样本。

1.2 数据的转换

我们将数据中的性别按“male=0,female=1”转化为数值型数据,将Diagnosis中包含多个值的样本划分为Diagnosis各不相同的多个样本;将Diagnosis中的值转换为数值型数据,根据各病症在数据集中出现的顺序将病症分别标号为“0,1,2,3……”,最终得到包含6 955个样本的数据集。

1.3 年龄分段

附件中的Age为连续型数据,我们根据国际最新的年龄分段标准将Age分为了4段,并为其进行标识,其中,0~44岁为青年人,用“0”标识;45~59岁为中年人,用“1”标识;60~74岁为年轻老年人,用“2”标识;75岁以上为老年人,用“3”标识。

2 模型的建立

我们建立了基于LSTM的循环神经网络模型,在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。但是这种普通的神经网络对很多问题却无能无力,而采用循环神经网络就能很好地解决这个问题。

该网络在t时刻接收到x之后,隐藏层的值是xt,输出值是ot,关键在于st的值不仅仅取决于xt,还取决于st-1。利用下面的公式来表示循环神经网络的计算方法:

式(1)是输出层的计算公式,式(2)是隐藏层的计算公式,即循环。如果反复把式(2)代入到式(1)中,将会得到:

从式(3)中可得,循环神经网络的输出值是受前面历次输入值xt,xt-1,xt-2,…,的影响的。以上就是在基于循环神经网络的基础上,引入了改进后的基于LSTM的循环神经网络。

3 模型的求解

分析附件中的数据,我们发现在其他指标相同时,其所患病症可能不同,即同一数据的标签不唯一,且诊断结果不仅与睡眠质量有关,与人体的其他因素也存在一定关系,为消除这些误差,我们使用Top-n错误率评价模型的准确性。Top-n错误率即从模型的预测结果中选取概率最大的n个作为预测类别,当预测类别中包含真实类别时,判定为预测成功,否则为失败。可以看出,当n为1时,即为常用的模型错误率。本文中,我们主要比较模型的Top-3和Top-5错误率。

我们将附录中的9个指标作为神经网络的输入,患病的类别作为神经网络的输出,并设置神经网络的参数见表1.

表1 神经网络的参数

从处理后的数据中选取6 500组数据作为训练集使用神经网络进行训练。分别以Top-3错误率和Top-5错误率为标准,分别得到训练的误差变化图和准确率变化,见图1.

以Top-3错误率为标准训练终止时的准确率为0.702 085,使用处理后数据中的500组数据最为验证集对神经网络进行测试,可得到验证集上准确率为0.696 276.

图1 Top-3和Top-5的准确率变化图

以Top-5错误率为标准训练终止时的准确率为0.988 21,使用处理后数据中的500组数据最为验证集对神经网络进行测试,可得到验证集上准确率为0.973 721.

由于数据的指标均以Pittsburgh sleep quality index为选取标准,因此,我们在上述模型的基础上,选取不同的取值,通过模型求得病率与原数据中的得病情况进行比较,得出睡眠质量越高,睡眠时间越长,得病率越低。

参考文献:

[1]周志华.机器学习[M].北京:清华大学出版社,2016.

猜你喜欢
错误率准确率神经网络
基于神经网络的船舶电力系统故障诊断方法
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
小学生分数计算高错误率成因及对策
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
正视错误,寻求策略