ARIMA模型在安丘市肾综合征出血热月发病率预测研究中的应用*

2017-01-09 13:43石福艳禹长兰王素珍
中国卫生统计 2016年5期
关键词:安丘市综合症发病率

石福艳 禹长兰 杨 光 王素珍△

ARIMA模型在安丘市肾综合征出血热月发病率预测研究中的应用*

石福艳1禹长兰2杨 光1王素珍1△

目的探讨ARIMA模型在安丘市肾综合症出血热月发病率预测中的应用,验证模型的可行性及其适用性。方法基于2000-2014年安丘市肾综合症出血热发病资料,拟合及验证肾综合症出血热的ARIMA模型。结果本研究构建的ARIMA(0,1,1)(0,1,1)12模型,其预测结果与安丘市肾综合症实际发病情况基本吻合。结论ARIMA模型可用于安丘市肾综合症出血热发病率的短期预测研究。

时间序列分析 ARIMA模型 肾综合症出血热 发病率

肾综合征出血热(hemorrhagic fever with renal syndrome,HFRS)是一种由汉坦病毒(HV)属中不同病毒引起的、经啮齿类动物传播的自然疫源性疾病。肾综合症出血热具有疫区范围广、疫区类型复杂、发病人数多、病死率高等特点,是我国重点监测的乙类法定报告传染病。目前,HFRS已波及70多个国家,我国是肾综合征出血热的高发国家,严重危害我国人民的健康。求和自回归滑动平均模型法(autoregressive integrated moving average,ARIMA)作为一种有效时间序列预测方法,近年来在人口健康、环境卫生及一些传染病发病率预测等研究领域中广为应用[1-4],目前有关ARIMA模型在肾综合征出血热发病预测中的研究较少。签于此,本研究采用ARIMA方法,基于安丘市肾综合征出血热发病资料,探讨ARIMA模型在HFRS发病率预测应用中的可行性,从而为安丘市HFRS的有效防控提供科学依据。

研究资料和方法

1.研究资料

本研究中的肾综合征出血热资料来自安丘市2000-2014年法定传染病疫情年报、肾综合征出血热病例个案调查表及相关调查报告。其中2000-2013年的肾综合征出血热发病数据用于构建ARIMA模型;2014年的发病数据用于模型的数据外验证。

2.研究方法

20世纪60年代美国学者Box和英国统计学者Jenkins提出了一套关于时间序列分析、预测和控制的方法,即Box-Jenkins建模方法。其中ARIMA模型是将时间序列视为一组依赖于时间的随机变量,由自回归模型AR(p)与移动平均模型MA(q)有效组合而成。ARIMA模型的建模步骤主要包括以下四个步骤[5]:(1)序列的平稳化处理:对时间序列数据进行数据转换或差分处理,使其满足零均值且方差不随时间变化;(2)模型的识别:根据现有数据拟合一个或多个ARIMA预测模型;(3)模型的参数估计及假设检验:对构建的ARIMA模型的适用性进行检验;(4)模型的应用:基于前述步骤构建、验证的ARIMA模型对未来某段时间的数值作出预测。通过以上三个步骤反复模拟,最终确定一个用于疾病预测的“局部最优”的ARIMA模型。

本研究采用SPSS18.0软件进行ARIMA模型构建及验证等相关研究。

研究资料和方法

1.2000-2013年安丘市HFRS发病情况

采用2000-2013年安丘市肾综合征月发病资料绘制HFRS发病时间序列图(见图1)。由图1可知,安丘市肾综合征出血热月发病数呈现明显波动,每年均出现发病高峰月,其发病高峰呈明显的、固定的季节性或周期性波动特点,即每年11月份前后出现肾综合征出血热发病高峰。

图1 2000-2013年安丘市肾综合征出血热月发病时序图

2.HFRS预测模型构建

(1)时间序列的平稳化处理结果

根据2000-2013年肾综合症出血热原始时间序列图发现其月发病人数为非平稳时间序列,需进行平稳化处理。前期尝试采用不同的数据转换及差分处理方法,以获得平稳的时间序列。研究结果显示,将逐月发病人数进行1次非季节差分和1次季节差分处理后,其时序图、ACF图和PACF图的平稳效果均较好。故初步确定肾综合症出血热的ARIMA模型为ARIMA(p,1,q)(P,1,Q)12。

(2)模型的识别

ARIMA模型中的p,q和P,Q是待定的参数,分别为连续模型和季节模型的自回归阶数和移动平均阶数。根据平稳化处理后的肾综合症发病人数的残差ACF和PACF图可知,残差序列偏自相关函数和自相关函数基本在其可信区间内。根据平稳后的数据对ARIMA模型的自回归阶数和移动平均阶数分别取0、1和2进行模型拟合,并根据标准化BIC值的大小确定“最优”拟合模型。拟合结果见表1。由表1可知,当ARIMA模型中的p,q取值为0,且P,Q取值为1时,ARIMA模型的标准化BIC值最小(Normalized BIC=2.385),其残差Ljung-Box Q=18.173,P=0.314,无统计学意义,可认为该残差序列为白噪声序列。故该研究中的肾综合症月发病人数的最优模型为ARIMA(0,1,1)(0,1,1)12,模型的表达式为:(1-B)(1-B12)Zt=(1-0.743B)(1-0.630B12)εt,t代表时间,Zt为月均发病人数,B为后移算子,εt为随机误差。

表1 不同自回归阶数和移动平均阶数ARIMA模型的拟合参数

(3)模型的参数估计及假设检验

肾综合症出血热发病预测模型ARIMA(0,1,1)×(0,1,1)12的参数估计结果显示,模型误差在任何时滞上其P值均大于0.05,表明该模型用于肾综合症发病预测是合适的。

(4)模型的预测应用

运用模型ARIMA(0,1,1)×(0,1,1)12对2001年1月至2013年12月的肾综合症发病人数进行回代预测。结果显示,ARIMA模型的拟合值与真实值之间基本吻合,均落入95%置信区内。同时,应用该预测模型对2014年1月至2014年12月的肾综合症出血热逐月发病人数进行预测。预测结果显示,安丘市2014年肾综合征出血热实际发病人数与ARIMA模型预测的人数基本吻合,模型预测值与实际值的吻合情况见表2和图2。

表2 安丘市2014年1月至12月肾综合症出血热月发病人数实际值与预测值结果比较

图2 安丘市2000-2014年肾综合征出血热月发病人数实际值与预测值时序图

讨 论

ARIMA模型是时间序列建模中的一种重要研究方法,由于其预测精度较高,目前被广泛用于急性传染病发病率的预测研究中。本研究利用2000-2013年安丘市肾综合症出血热逐月发病数据,拟合了ARIMA(0,1,1)×(0,1,1)12模型,并采用该拟合模型分析预测了2014年安丘市肾综合症出血热的发病情况。研究结果显示模型的预测值与实际值基本吻合,该结果提示ARIMA(0,1,1)×(0,1,1)12模型可以对安丘市肾综合症出血热逐月发病情况进行预测。然而,ARIMA模型在预测研究中只考虑了时间序列本身的特性,而未考虑其他的影响因素;另外,随着预测时间的延长,预测的误差将会增大,因而ARIMA模型更适用疾病的短期预测。因此,该模型在实际应用时,为提高模型的预测精确度,需要不断更新监测数据,对模型进行动态修正。

相关研究显示[6],只有基于足够多的时间序列数据,ARIMA预测模型才能得到较满意的预测效果,通常认为ARIMA型法至少需要50个以上的数据构建模型。本研究在处理肾综合征出血热序列数据时也发现,时间序列太短会导致模型构建困难。另外,当时间序列数据取较长时间序列时,可保证拟合模型的可靠性。本次研究采用了168个序列数据构建模型,预测效果较好。但也有研究者提出,时间序列太长,也会影响模型预测的精确度,因而,时间序列长短的估计是一个值得深入研究的课题。

综上所述,ARIMA模型可用于肾综合症出血热的短期发病预测研究,本研究构建的ARIMA模型可以为安丘市肾综合症出血热的有效防控提供实践依据。另外,该研究也可为安丘市其他传染病的预防及控制研究工作提供理论参考。

[1]胡建利,梁祁,吴莹,等.季节时间序列模型在菌痢发病预测中的应用.中国卫生统计,2012,29(1):34-39.

[2]陈伟,陈正利,李少芳,等.ARIMA模型在河南省梅毒月发病率预测中的应用.中国卫生统计,2013,30(4):604-606.

[3]孟蕾,王新华,白亚娜,等.甘肃省哨点医院流感样病例ARIMA模型预测.中国公共卫生,2014,30(2):228-230.

[4]张越,王胜难,刘媛,等.应用ARIMA模型对呼吸系统疾病月住院量及住院费用的预测.中国卫生统计,2015,32(2):197-200.

[5]孙振球,徐勇勇.医学统计学.北京:人民卫生出版社,2002:358-371.

[6]陆波,闵思韬,闵红星,等.应用ARIMA模型预测麻疹发病率的可行性研究.中国卫生统计,2015,32(1):106-107.

(责任编辑:郭海强)

国家自然科学资金项目(81473071);山东省自然基金资助项目(ZR2013HM 045);山东省医药卫生科技发展计划项目(2015WS0067)

1.山东潍坊医学院公共卫生学院卫生统计学教研室(261053)

2.山东省安丘市疾病预防控制中心

△通信作者:王素珍,E-mail:wangsz@w fmc.edu.cn

猜你喜欢
安丘市综合症发病率
多晒太阳或可降低结直肠癌发病率
精准扶贫背景下脱贫成效的测度与分析——以安丘市为例
ARIMA模型在肺癌发病率预测中的应用
安丘市宏博机械制造有限公司(原安丘市华
——机械厂)
梦游综合症
宫内节育器与宫颈糜烂发病率的临床研究
大连港职工甲状腺结节发病率调查
妊娠贫血及妊娠高血压综合症护理探讨
闹闹的“吃什么”综合症
安丘市在全国率先试水大葱和生姜农业保险