BPNN神经网络模型和SARIMA模型在荆州市乙类传染病发病数中的预测效果比较

2021-03-06 02:24刘天姚梦雷黄继贵黄淑琼陈红缨杨雯雯蔡晶吴然
中国社会医学杂志 2021年1期
关键词:乙类荆州市传染病

刘天, 姚梦雷, 黄继贵, 黄淑琼, 陈红缨, 杨雯雯, 蔡晶, 吴然

疾病预测、预警模型的探讨是目前公共卫生研究的热点问题之一[1]。乘积季节性差分自回归滑动平均模型(seasonal autoregressive integrated mo-ving average,SARIMA)作为传统时间序列模型中最经典的模型,被广泛应用于疾病的预测[2-4]。利用模型早期预测疾病未来流行特征,科学研判疫情态势,为制定有效的防控策略提供参考依据,这对降低疾病的发病率及危害性,减轻疾病对人群健康的影响具有重要意义。近年来,人工神经网络在辅助决策、人工智能领域取得了广泛成功,BPNN神经网络(back propagation neural network,BPNN)模型作为神经网络模型中最经典的模型,也逐步被应用于疾病的预测中[5-6]。然而关于两种模型的预测效果比较仍鲜有报道。本文以荆州市2005年1月—2018年5月乙类传染病逐月发病数为例,分别建立SARIMA模型和BPNN神经网络模型,并比较其拟合及预测效果,探索疾病预测的最优模型,为疾病的精准防控提供科学依据。

1 资料与方法

1.1 资料来源

本研究对荆州市2005年1月—2018年5月乙类传染病发病数进行统计分析,乙类传染病发病数来源于“中国疾病预防控制信息系统”,按现住址、发病日期导出研究期间各月份发病数,收集的病例类型包括临床诊断病例和确诊病例。

1.2 研究方法

运用2005年1月-2017年12月荆州市乙类传染病逐月发病数资料分别构建BPNN神经网络模型和SARIMA模型,分别预测2018年1—5月发病数并与实际值比较,探讨两种模型的拟合及预测效果。

1.2.2 SARIMA模型SARIMA模型的原理参考孙振球等人著作[10],SARIMA模型一般形式为SARIMA(p,d,q)(P,D,Q)s,其中p、q为自回归和移动平均阶数,d为一般差分次数,P、Q为季节性自回归和移动平均阶数,D为季节性差分次数,s为季节周期。SARIMA模型应用前提条件是时间序列平稳,对于非平稳序列采用差分(d)、季节差分(D)和对数变换等方法使序列平稳。p、q依据自相关图(autocorrelation function,ACF)和偏自相关图(partial autocorrelation function,PACF)来确定,采用逐步后退法确定p、q值。P、Q值较难确定,但一般不超过2,采用凑试法选择最优模型。模型的诊断采用Box-Ljung统计量,若残差无自相关性,提示残差为白噪声序列,可以采用该模型进行预测。乙类传染病季节性一般以年为周期,s=12。

1.2.3 模型评价运用平均相对误差(mean absolute percent error,MAPE)、决定系数(R2)、均方根误差(root mean square error,RMSE)和平均绝对误差(mean absolute error,MAE)4个指标评价模型拟合及预测效果[8-10]。

1.3 统计分析

运用SPSS 20.0、Eviews 9.0分别构建BPNN神经网络和SARIMA模型。检验水准α=0.05。

2 结果

2.1 BPNN神经网络模型

输入层12个单元、输出层1个单元,根据经验公式,隐含层单元数介于4~14之间。训练集平均相对误差和训练集均方根误差随着隐含层单元数的增加而减少;预测集平均相对误差和预测集均方根误差随着隐含层单元数的变化而明显变化。综合考虑,选取隐含层单元数为10时的BPNN模型为最优模型,其中训练集相对误差为3.92%,预测集相对误差为11.84%。见表1。

表1 不同隐含层单元数的神经网络拟合及预测结果

2.2 SARIMA模型

2005—2017年荆州市乙类传染病发病数所构成的时间序列经ADF检验,序列非平稳(t=-1.29,P=0.63)。对原始序列经一阶差分、一步s=12的季节性差分,变换后的序列经ADF检验,序列平稳(t=-5.24,P<0.01),可以用于SARIMA建模,确定参数d=1,D=1。再观察变换后序列的ACF图和PACF图,ACF图中,延迟1阶、12阶和13阶超过2倍标准差范围,确定q可能取值包括1,12,13;PACF图中,延迟1阶、5阶、11阶和12阶超过2倍标准差范围,确定P可能取值包括1,5,11,12。见图1。将所有参数纳入模型ARIMA(p,d,q),确定模型参数p=0,q=12(t(MA)=-9.48,P=0.00),余参数均无统计学意义。而经逐步实验,9个模型中4个模型个参数均有统计学意义。见表2。模型ARIMA(0,1,(12))(1,1,1)12的各项评价指标均最小,为最优预测模型,再对该模型残差进行诊断,残差在延迟16阶内无自相关性,可以认为残差序列为白噪声序列,该模型可以用于短期预测。见表3、图2。

表2 SARIMA[0,1,(12)](P,1,Q)12模型的备选模型的参数及检验

表3 备选模型拟合效果比较

图1 变换后序列的ACF图及PACF图

2.3 两种模型比较

以构建的BPNN模型、SARIMA[0,1,(12)](1,1,1)12模型预测荆州市2018年1-5月乙类传染病发病数,并与实际值比较。见表4。BPNN模型的拟合和预测MAPE分别为3.92%、11.84%,SARIMA[0,1,(12)](1,1,1)12模型的拟合和预测MAPE分别为7.16%、21.96%。BPNN模型拟合及预测MAPE、RMSE、MAE均小于SARIMA[0,1,(12)](1,1,1)12模型对应指标,BPNN模型R2均大于SARIMA[0,1,(12)](1,1,1)12,且BPNN模型拟合及预测曲线与实际值的曲线拟合效果更好。见图2。

表4 两种模型拟合及预测效果比较

图2 两种模型拟合、预测值与实际值比较

3 讨论

3.1 BPNN神经网络模型优于SARIMA模型

本研究以荆州市2005—2017年乙类传染病发病数为例,拟合BPNN神经网络模型和SARIMA模型并与实际值比较,评价两种模型拟合、预测效果,结果显示,BPNN模型拟合和预测效果均明显优于SARIMA模型,提示神经网络对疾病预测模型精度具有较大幅度提高,提示神经网络在该领域有较大的应用前景,值得广大疾病监测工作者进一步深入研究,以探寻疾病精确预测、预警模型,这对疾病精准防控具有十分重大的指导意义。BPNN神经网络模型优于SARIMA模型,其主要原因可能是:①SARIMA模型为线性函数模型,基本原理为通过变换准确找到函数的表达式,当拟合数据表现不稳定,拟合效果常不理想;而BPNN神经网络模型为一种非线性模型,即通过一系列的简单函数无限逼近实际值,学习效率显著提高[11]。②影响传染病流行的因素很多,因素的作用方式复杂,且乙类传染病包含疾病种类繁多,使得2005-2017年荆州市乙类传染病发病数时间序列表现不稳定,线性方程不能完全有效提取流行趋势信息,导致模型拟合、预测效果不理想。

3.2 BPNN神经网络的优点和缺点

神经网络作为一种“黑箱”技术,理论上可以通过单隐含层的若干单元无限逼近实际值[12];但同时训练过度常导致模型的泛化能力下降,表现为预测准确度下降。本文建立的BPNN模型,随着隐含层单元数增加,拟合相对误差逐渐减小,预测相对误差在隐含层单元数超过10个后,变化较大。为了防止BPNN神经网络出现训练过度,选择隐含层包含10个单元的模型进行拟合,最终建立的BPNN模型拟合及预测的相对误差分别为3.92%、11.84%,拟合及预测效果较好[13]。提示在构建BPNN神经网络模型时为防止训练过度,应采用逐步试探的方法选择合适的单元数,以同时达到模型拟合和预测的精度要求。另外SARIMA模型一般要求数据量不少于50个[14],这也限制了SARIMA的应用。BPNN神经网络模型则对用于拟合的数据量无要求,任何数量的拟合数据均可用于建模。

3.3 本研究的局限性及应用前景

综上所述,BPNN神经网络模型的拟合及预测效果优于SARIMA模型,且具有对数据量要求低的特点,但BPNN神经网络模型也存在一定的局限性。首先,由于随机误差的影响,仅采用MAPE等4种评价指标评价模型拟合及预测效果可能较为片面,下一步将考虑纳入更多指标进行评价;其次,隐含层单元数的选择缺乏科学客观标准;再次,神经网络模型的可解释性很差。另外,模型具有不可重复性,因此,对于神经网络的理论研究还有待进一步开展[15]。但不可否认,BPNN神经网络的强大的拟合能力较传统线性模型有了质的飞越,值得进一步研究其在疾病监测领域更为广泛的应用。

猜你喜欢
乙类荆州市传染病
《关于对新型冠状病毒感染实施“乙类乙管”的总体方案》解读问答(医疗机构侧)
《传染病信息》简介
传染病的预防
3种传染病出没 春天要格外提防
捉迷藏比赛
呼吸道传染病为何冬春多发
诗祖文魂百代传一一首届“中华诗人节”在湖北省荆州市举行
异地就医联网结算,应该完全执行“就医地支付范围,参保地支付标准”政策
生态哲学视域下的“人水和谐”城市建设——以荆州市为例
乙类药品自付比例作用实证分析