预测问题应用设计中的若干适配对策与实证研究*

2015-01-27 10:31李望晨王素珍刘洪庆张利平
中国卫生统计 2015年3期
关键词:时序差分残差

李望晨 王素珍 刘洪庆 张利平△

预测问题应用设计中的若干适配对策与实证研究*

李望晨1,2,3王素珍1刘洪庆1张利平1,2,3△

资料验证、方法适配分析与软件辅助相结合为卫生预测问题的统计建模应用提供了空间。时间序列分析作为主要的定量预测方式,依赖时序数据特点建立预测模型,制定决策依据。鉴于预测问题资料特点多样化和代表方法适配性能差异,从卫生预测思想、方式和方法出发,针对资料特点,以建模设计为立足点寻求综合对策,借助经典案例,分析资料特点与方法适应性,制定改进模型和实现程序,综合探索其在卫生领域建模设计中的推广价值。

预测方案适配设计思想

1.两类预测思想概述 预测就是由过去与现在情况预测未来,是科学决策的基础和前提,活跃于经济学、管理学、医学等领域。定性预测侧重主观经验判断,定量预测侧重客观数据计算。定性预测法是在数据资料不丰富、发展规律不稳定或转折趋势状况下,借助业务知识、逻辑判断、专业经验综合研究,灵活性强、适用性广、可随时随地开展,利用多层面信息,不受信息量限制,可兼顾突变转折和复杂不确定因素,可分析未来发展性质和程度,但是受专家知识经验、信息收集广度和研判能力限制,需要大量调查、咨询、论证和研讨工作。定量预测是指借助数理统计方法对较完备数据经模型描述和客观计算后,寻求蕴含规律信息进行外推预测,不受主观因素影响,不必对复杂因素研讨论证,计算客观,成本低,可重复应用,但方法特定、信息利用单一、运行机械,对数据资料质量与数量度依赖高,对于变化复杂、不可测量和转折突变多的问题应用受限制。两类方法原理性能、优缺点和建模方式不同,应用效果与适用价值有区别,而资料的特点、复杂程度和预测精度决定了方法选用的有效性。

2.定量预测分类比较 定量预测分为因果回归和时间序列方式,前者是建立预测对象与影响因素间随时间变化形成的函数关系,进一步进行计算模拟和推断预测。但由于影响因素的复杂变动性、主次不明性或难以量化性,因素筛选难度和非线性关系的难确定也造成了模型构建和参数识别难度,实际应用意义并不大。时间序列[2]是根据事物本身随时间变化而形成的等间隔数据,建模时不必筛选影响因素,不必确定主次因素、数值量化以及复杂因果关系,只须借助数理方法和时序数据本身计算,就可实现预处理、模型拟合、检验和外推制定模拟流程,资料获取方便、建模成本低,方法选择恰当就可有效拟合数据演化规律,预测精度可观。该法依赖设计者数理技术掌握程度,受预测对象学科知识约束小,适于时序资料建模分析,为各类预测问题通用,理论体系和应用设计相互推动、交叉发展。

3.时间序列预测若干适配对策 并非任意资料都可用于建模,如果数据变化不规则且表现纯随机性,短期内无关联性或延续性,则失去分析意义。拟合效果好,往往认为外推预测精度高,但有时过度拟合历史规律却使泛化性能下降,预测变差,如曲线拟合法。由于时间序列预测方法多样化,应对方法性能、数据特点归类分析,探讨方法优选策略和进行实证研究。数据资料变化特点不同,应由方法原理性能择优选取。例如,灰色法适于数量少、缺规律、欠规则性随机数据,还可用拟合误差建模预测值与原预测值结合修正精度。单调性、稳定性、延续性平缓变化数据可以用以时序为自变量的曲线函数进行外推,根据差分性质与序列差分算子进行匹配;长期、连贯、丰富且随机性强的时序资料适于ARIMA模型。周期性和趋势性可经因素分解后充分提取季节指数、交易日因素、趋势规律等信息,以有效保证拟合效果。

确定性因素分解方法具有数据演化解释能力,但对随机信息提取欠充分,有时拟合效果欠理想。随机时序方法是对序列过去值、当前值和残差项建立线性函数,利用序列短期相关性建模,理论成熟、随机信息提取好、拟合精度高,但不能直观解释演化规律。成熟软件背景下预测建模实现便利,方法复杂度和设计成本将不再是主要障碍,而有些方法随机信息提取粗糙、拟合精度差,原理简单,失去有效代表性。资料预分析、方法优选与组合设计是建模前的重点工作,可考虑分类设计和制定实施流程,研究建模适用价值。

几个预测建模算例

1.残差修正灰色(grey method)模型

该法是对随机不规则序列累加,生成类似某指数函数的规律性序列,建模提取信息进行拟合和外推,计算残差序列,通过检验后预测应用,包括累加、建模、检验、外推和累减过程。对残差序列可同样建模并外推预测,用于修正预测值和改进精度。该法适于小样本、贫信息、不规则时序数据预测建模问题,对于长时平稳趋势资料无竞争优势。基本原理[2-3]如下:

原始数据序列为x(0)={x(0)(1),x(0)(2),…,x(0)(n)},x(1)={x(1)(1),x(1)(2),…,x(1)(n)}为其一次累加生成后的序列,其中x(1)(k)=x(1)(k-1)+x(0)(k)。再计算序列z(1)={z(1)(2),z(1)(3),…,z(1)(n)},其中z(1)(k)=0.5x(1)(k)+0.5x(1)(k-1)。然后根据x(0)(k)+az(1)(k)=b建立方程组并识别参数:

(a,b)T=(BBT)-1ByT,

y=(x(0)(2),x(0)(3),…,x(0)(n))T。

2.曲线拟合(curvefit)优选模型

对某医院各年度门诊人次进行拟合及预测研究。序列差分特征计算见表1。

3.X-11-ARIMA组合模型

X-11过程法属于时间序列季节调整法,它基于确定性因素分解原理对序列分离出多种变化特征如周期变化、交易日波动、长期趋势和随机影响等因素,在计算时实行了11次移动平均而得名,可用于时间序列季节效应分析,多与其他方法组合建模使用。

其中▽d=(1-B)d为差分算子,Φ(B)=(1-φ1B-…-φpBp),Θ(B)=(1-θ1B-…-θqBq)为自回归和移动平均算子,p,q为自回归和移动平均最高阶数,φi,θj为自回归和移动平均系数。Bkxt=xt-k为k步差分算子,i=1,2,…p;j=1,2,…q。{xt}为原始序列, {εt}为残差序列。

以非纯随机序列低阶差分后消除趋势,对此平稳序列提取短期相关信息,拟合建模和外推预测,算法比较复杂但理论成熟,为时间序列经典分析方法[3]。

(1) 平稳性与白噪声检验 先对{xt}进行纯随机和平稳性检验,根据延迟自相关系数构造Q、LB统计量进行检验。序列有趋势性和周期性时可由d阶或k步差分实现平稳化。时序图、自相关图、偏自相关图或单位根检验有助于{xt}随机性、趋势性和平稳性分析。

(2) 模型选择和参数估计 计算自相关系数(ACF)和偏自相关系数(PACF),协助模型定阶。二者均拖尾,则取ARMA(p,q)模型,但定阶复杂;前者q阶截尾后者拖尾,则取MA(q)模型;后者p阶截尾前者拖尾,则取AR(p)模型。但多根据AIC、SBC或BIC择优适配或寻优计算最优阶数结构,参数识别采用条件最小二乘法,不显著时可剔除后重新优化为疏系数模型。

(3) 模型检验与应用 根据模型拟合处理得{εt},白噪声检验用于判断信息是否提取充分;若通过检验则残差为纯随机序列,模型显著有效并可用于外推预测。

针对某地区连续10年各季度综合医疗收入进行建模拟合及预测研究。数据见表2。

经分析,原始序列为非平稳序列,有明显季节波动和长期增长趋势,用X-11法计算季节指数依次为0.9612,0.97785,1.00289,1.05821,对原序列消除季节影响后得到长期趋势序列,经过一阶差分消除趋势性,将处理后平稳序列建模。在p=6,q=6范围内最优定阶,BIC(4,0)=3.658最小,考虑AR(4)模型(1-φ1B-φ2B2-φ3B3-φ4B4)(1-B)xt=εt。经参数显著性检验,φ3、φ4均不显著(P=0.3391,0.2381),兼顾模型约减原则,经剔除后构造AR(2)模型,(1+1.003B+0.50684B2) (1-B)xt=εt。φ1、φ2均显著(P=0.0001,0.0013)。由模型拟合后计算残差序列,分别延迟6,12,18,24阶时构造LB统计量卡方检验,残差为白噪声序列(P=0.8049,0.9457,0.9979,0.9372),说明模型拟合序列有效,外推趋势数值为1201,1224,1244,1267,再分别乘以季节指数后得到预测值1154,1197,1248,1341。趋势拟合外推效果见图1;第11年4个季度外推效果见图2。

[1]徐国祥.统计预测与决策.上海:上海财经大学出版社,2012,8:50-136.

[2]王燕.应用时间序列分析.北京:中国人民大学出版社,2012,12:120-177.

[3]安震东.应用灰色模型预测沈阳市沈河区乙肝流行趋势.中国卫生统计,2013,30(3):414-415.

[4]李望晨,潘庆忠,王培承,等.增长型经济预测模型优选与识别方法的运用.统计与决策,2010,(2):40-42.

[5]孟蕾,王玉明.ARIMA模型在肺结核发病预测中的应用.中国卫生统计,2010,27(5):507-509.

(责任编辑:郭海强)

*全国统计科研项目(2013666);山东高校人文社科项目(J14WG21);教育部人文社科项目(13YJAZH094);山东统计科研项目(2014-184)

1.潍坊医学院公共卫生学院(261053)

2.“健康山东”重大社会风险预测与治理协同创新中心

3.社会领域健康风险协同创新中心

△通信作者:张利平

猜你喜欢
时序差分残差
RLW-KdV方程的紧致有限差分格式
顾及多种弛豫模型的GNSS坐标时序分析软件GTSA
符合差分隐私的流数据统计直方图发布
基于双向GRU与残差拟合的车辆跟驰建模
清明
数列与差分
基于残差学习的自适应无人机目标跟踪算法
基于不同建设时序的地铁互联互通方案分析
基于递归残差网络的图像超分辨率重建
基于FPGA 的时序信号光纤传输系统