人口死亡统计的间接模型研究

2020-07-30 08:39黄荣清曾宪新
人口与经济 2020年4期
关键词:修正波动误差

黄荣清,曾宪新

(首都经济贸易大学 劳动经济学院,北京 100070)

一、 问题的提出

人口死亡统计是人口学研究的起点。1662年,格兰特(Graunt)提出编制的生命表科学地揭示了在一定时期不同年龄人口的死亡风险和期望寿命的计算方法,开启了从人口死亡统计数据认识死亡规律的旅程[1]。

人口死亡统计主要研究两个方面的问题:一个问题是在理论上寻找人口死亡随年龄变动的规律。人口死亡规律的研究又大致可以区分为三个方向:①人口死亡的直接模型。它的特点是以年龄为自变量,以生命表中某一生命函数为因变量,以此来揭示不同年龄的死亡风险,基于高质量数据计算出来的生命表本身就是一种离散形式的直接模型,但生命表只是特定数据下的死亡变动规律,不具有普遍性。直接模型通过数学建模可以将不同生命表中所反映的死亡随年龄变动的规律概括为简洁的函数形式。直接模型揭示了不同生命表所反映的人口死亡随年龄变动的普遍性规律。②人口死亡的间接模型。与直接模型不同,人口死亡关系模型不是用自身的生命表数据来反映人口死亡风险的变动,而是通过构建生命表的生命表(模型生命表)之间的关系来构建死亡的变动规律,因此,称为人口死亡相对模型,也称为关系模型(relational model)。它的主要特点是用数学模型来揭示两个不同生命表的函数关系。最经典的是布劳斯(Brass)的logit体系模型等[2-3]。后来的李和卡特(Lee & Carter)的随机向量模型也可以归类于间接模型[4]。③模型生命表。通过对相对可靠的人口死亡数据进行统计归纳,编制出一套不同死亡水平(预期寿命)、不同类型的生命表。例如联合国在1955年发表的模型生命表和在1982年编制的发展中国家的模型生命表[5-6];美国人口学者寇尔(Coale)和德曼尼(Demeny)在1966年发表和在1983年修订的分区域模型生命表等[7-8]。人口死亡统计所研究的另一个主要问题是探讨实际的人口死亡处于怎样的水平?这个问题主要是在对现有的死亡数据进行评估、修正;在数据不完整的情况下对死亡数据进行间接估计。

人口死亡研究的基础就是死亡统计数据,模型生命表就是在可靠的人口死亡数据进行统计归纳的基础上形成的。但是,实际研究中的数据往往不尽如人意。间接模型为数据不完备下的死亡水平估计和人口死亡数据存在系统性问题的修正提供了重要的工具。直接模型、间接模型、数据修正和死亡水平的间接估计之间的关系如图1所示。

图1 人口死亡数据、直接模型、间接模型的关系

近年来,随着数据的不断积累和丰富,人口死亡水平间接估计的发展逐渐脱离了间接模型体系,学者们在方法和实证研究中尝试运用直接模型的思路借助人口死亡内在的年龄规律,实现在少量数据的基础上对整体死亡水平做出间接估计[9-10]。但这些方法实现间接估计的条件是确认数据质量相对可靠,至少局部年龄的死亡数据是可靠的。当数据存在系统性问题时,数据修正是一个绕不过去的问题。到目前为止,数据修正的主要方法仍然是通过间接模型建立实际死亡数据与模型生命表的联系。

回顾历次普查死亡数据的修正不难发现,数据修正中基准选择并没有统一的原则和标准,通常是研究者根据自己的经验或者对比数据与模型生命表的死亡模式做出主观的选择[10-12]。间接模型自1968年被提出以来,为了能够更好地与模型生命表数据相拟合有过一些改进[13]。但在实际的数据修正中还是以两参数的逻吉特模型为主[10-12]。本项研究将从直接模型所揭示的人口死亡的内在规律出发,对间接模型进行理论上的研究,进而改进间接模型,对于间接模型如何更好地用于数据修正提出建议。

二、文献的回顾

关于死亡的间接模型,最常用的当首推英国人口学家布劳斯的logit体系(logit system)模型[1]。

1.布劳斯的logit体系模型

布劳斯在1968年提出,任意两个生命表中的生存率函数l1(0)和l0(x)(这里l(0)=1)经过logit变换后,其线性关系成立。所谓logit变换就是如下的函数变换:

(1)

反过来,若知道logit变换的值Y(x),可以求出l(x)的值:

(2)

设l1(x)和l0(x)经过logit变换后的值分别为Y1(x) 和Y0(x),按照logit体系它们有如下的关系:

Y1(x)=A+BY0(x)

(3)

这里A和B分别为线性方程的常数项和一次项系数。

logit体系模型在以后的人口死亡分析中发挥了重要的作用。其最主要的作用在于两个领域:其一,数据修正。logit体系模型反映了生命表之间的关联。因此,可以用确定高质量的死亡率数据为基础的生命表作为标准,利用式(3)对另一个数据质量不高的l1(x)进行修正。其二,死亡预测。当死亡水平发生变动时,可以将模型的参数A、B定义为随时间变化的量A(t)和B(t),这样通过估计A和B的时间变化,再利用公式(3),Y1(x,t)=A(t)+B(t)Y0(x)来预测未来死亡率的变化。

在反映Y1(x)和Y0(x)的变化图中,常数项A反映两个生命表在起始值上(或者说截距)的差别,布劳斯把它称之为死亡水平,一次项系数B(或者说斜率)反映了两个生命表中的Y(x)在年龄上的变化,布劳斯把它称之为死亡模式。

在后来的研究中布劳斯发现,并不是所有的生命表函数之间都存在很好的线性关系,他认为这与选择的生命表函数有关。但他同时认为,可以找到和所有其他生命表函数都有较好线性关系的某个生命表函数。为此,他设计了一套各个年龄的l(x),并以它为标准(或者说基础),通过变动死亡水平A和死亡类型B,按式(3),可得到不同的生命表l(x)[2]。

2.logit体系模型的改进

在运用布劳斯的logit体系模型时,学者们注意到在拟合两个不同类型或死亡水平相差较大的生命表数据时,模型的误差还是比较大的,特别是在老年和少年两端,即使调整参数A、B,模型的精度并没有得到显著改善。对这种情况,布劳斯的学生扎巴(Zaba)提出了改进方法[13]。他的改进模型情况如下:他先引入一个中间的存活率函数lN(x),

lN(x)=lS(x)+ψκ(x)+χt(x)

(4)

其中,lS(x)为布劳斯标准生命表的l(x)值,κ(x)和t(x) 由lS(x)决定,

κ(x)=1.5lS(x)(1-lS(x)(1-2lS(x)2)

(5)

(6)

Y(x)=α+βYN(x)

(7)

这里Y(x)和YN(x)是l(x)和lN(x)的logit变换值。由公式(4)和(7)可知,Y(x)是由lS(x)和4个参数ψ、χ、α、β来决定的。参数ψ、χ是扎巴根据经验来确定的,α、β是由式(7)回归确定。扎巴提供的是一个四参数模型。

尤班克(Ewbank)、弋麦斯(Gomez)和斯托托(Stoto)在1983年提出了另一个四参数的模型[14]。它们的模型如下:设lS(x)为作为标准的存活率函数,p=1-lS(x),模型形式如下:

(8)

其中

(9)

T(p,κ,λ)表是由作者自己制作的表,通过反复内插与迭代寻找κ值和λ值,使其与Y(x)比较接近,最后根据式(8),回归确定参数α和β。

3.间接模型的另一形式

(10)

任意两个生存率函数经过这样的变换后,存在着近似的线性关系:

Y1(x)=A+BY0(x)

(11)

式(11)称之为l(x)的双对数线性模型(简称双对数模型)。

通过大量的实际数据进行验证,双对数模型和logit体系模型的精度大致相当。在两个死亡水平较高(期望寿命较低)的生命表情况下,用logit体系模型来计算时的精度会略高一些,而在两个死亡水平较低(期望寿命较高)的生命表情况下,用双对数模型的精度会高一些。

布劳斯提出的不同的生命函数之间可以用两个参数的线性关系来表示的模型,由于其简单容易操作,且具有一定的准确度,所以获得了广泛的应用。为了更好地适应各种情况和提高模型的精度,后人提出了改进的模型,出现了四参数模型。四参数模型虽然对模型的精度有一定程度的提高,但由于增加了参数,使模型结构变得复杂,并增加了计算的难度。另外,在上面提到的改进的两个四参数模型,都必须用到提出者自己归纳出的被称为标准的先验数据,但这种数据是否普遍有效,无法得到证明。由于以上原因,上述的四参数模型在实际应用中并不广泛。

尽管间接模型的研究在方法层面得到了一些发展和推进,但由于仍然存在一些问题,后来的几个间接模型并没有在实际的数据修正和间接估计中得到广泛的应用。本文试图从人口死亡的内在规律入手构建另外类型的间接模型,以找到不同死亡类型间的关系。

三、数理模型

上面提到,人口死亡的直接模型是以年龄为自变量的函数。我们提出如下人口死亡的数理模型(1)数理模型构建的细节和参数估计在笔者主持的社科基金项目结项报告和另一篇待发表的文章中,考虑到数理模型及其参数的估计不是本文重点,由于篇幅有限这里不再展开。有兴趣的读者可与作者联系。。

1.人口死亡风险模型

首先假设:

(12)

这里U(x)为从出生到x岁的死亡力之和,可以把它分解为U0(x)和1+C(x)两部分之积;其中,U0(x)表示死亡力的基本部分(简称基本部分),1+C(x)为影响因子。C(x)为死亡力的干扰因子。在干扰因子作用下,U(x)或大于U0(x),或小于U0(x)。对式(12)取对数:

ln(U(x))=lnU0(x)+ln(1+C(x))≈lnU0(x)+C(x)

(13)

则公式(13)可以改成:

ln(U(x))=A+B(x)ln(x)+C(x)

(14)

我们称公式(14)为人口死亡(力)风险模型。人口死亡风险模型还可以有另外一种形式,对公式(14)两边求导:

(15)

这里B1(x)为B(x)ln(x)的导函数,c(x)为C(x)的导函数。

(16)

(17)

此处,波动函数c(y)用以极大值为中心的对称分布来表示(不同死亡数据可能反映出不同的波动特征,后面将会对波动函数进行进一步的讨论):

c(x)=c1e-c2(x-c0)2

(18)

模型中A可以称为死亡水平,B1(x)反映死亡模式,死亡模式用一个函数来表示。

人口死亡风险模型将人口死亡分解为可转换为线性函数的基本部分和一个非线性函数的波动部分。基本死亡力部分包含死亡水平和死亡模式函数。通过对实际数据的验证,人口死亡力的基本部分是死亡力的主要部分,大概能解释死亡力变化的95%以上,而干扰部分对死亡力影响较小,只在5%以下。对预期寿命计算的影响,大多在1岁以内。

2.基本死亡力、死亡模式和波动函数

这里通过以联合国的模型生命表数据为基础的进一步分析来理解数理模型中的基本死亡力、死亡模式和波动函数。

(1) 基本死亡力。首先,针对同一类型同死亡水平的数据计算出B(x),如图2所示。可以看出,B(x)表现出如下特征:①为单调上升函数。②在同一死亡类型中,在前期,预期寿命越大,B(x)值越小;在后期,预期寿命越大,B(x)值越大。

图2 同一类型、不同死亡水平下的B(x)值(一般,男性)

进一步地,对同一死亡水平不同类型的死亡数据计算出B(x),如图3所示。可以看出B(x)的特征为:“一般”、“拉美”、“南亚”三种死亡类型的B(x)比较接近,与“智利”和“远东”模型明显不同。“智利”B(x)值的特点是在前期(30岁以前)较小;而“远东”模型B(x)值的特点是在30岁以后较大。

图3 不同类型、相同死亡水平下的B(x) (男性,e0=65)

(2) 波动函数和影响因子。前面分析的数理模型中波动函数的延伸可以用如下公式来表示:

c(x)=c1e-c2(x-c0)2cos(c3(x-c0))

(19)

之所以称它为延伸,是因为波动图形呈对称状:在x=c0达到最大值时没有变化, 只是在两侧尾端,发生了符号改变。针对不同的死亡数据我们还给出另外三种波动函数:①变形和非对称形式。当波动函数呈非对称的情况下,它可以用以下函数来表示:c(x)=c1(x-c0)e-c2(x-c0)2。②退化的情形。在这种场合下,c(x)=0。③其他情形(不规则)。

以下还是以寇尔-德曼尼模型生命表数据为基础来讨论不同死亡水平和不同死亡模式的波动函数特点。

首先,以西方模式中不同水平的数据计算出死亡力的波动函数的图形(见图4)。由图4可以清楚看出,对于同一死亡模式,死亡波动具有相近的函数形式,而且最大值的年龄位置相近。但峰值高度并不相同,在大部分情况下,预期寿命越大,峰值越高,但e0=80和e0=85时两者的峰值高度接近。

图4 西方模式中不同水平下死亡力的波动函数的对称形式

接下来,选定一个东方模式的死亡水平(e0=65),分别以区域模型生命表中四种模式在这一死亡水平(e0=65)下的数据为基础来计算死亡力的波动函数(见图5)。东方模式和西方模式非常接近,南方模式呈对称的延伸形式,且极大值年龄在35岁左右,峰值的绝对值较小,而北方模式的死亡力的波动函数呈非对称形式。

图5 不同模式下的波动函数(e0=65)

由上述基于数据的分析可以看出,波动函数还有一个特点:它与死亡力大小无关。死亡力大(预期寿命低),波动函数的极大值不一定大,死亡力小(预期寿命高),波动函数的极值不一定小。对于一个固定(地区)的人口,在不太长的时期内,或者说死亡水平变化不大的情况下,波动函数往往变化不大。

从整体上说,由波动函数产生的其他影响因子C(x)对死亡力的影响并不大。但在局部年龄,如在波动函数呈对称情况下,在波动函数达最大值x=c0的前后几个年龄,c(x)的值甚至大于B1(x),说明在这些年龄段,干扰因素对死亡力作用的影响是不能忽视的。

四、间接模型的导出

数理模型揭示了人口死亡随年龄变动的关系。模型生命表数据的验证说明数理模型是普遍适用的。而间接模型是不同死亡模式之间的联系,那么我们可以利用前述数理模型的形式、性质和特征,从理论上对人口死亡的间接模型做进一步的探讨。

1.基本死亡力和间接模型的导出

波动函数比较复杂,但同时波动对死亡力全体来说影响不大,所以在构建两个死亡力的关系模型时,可以先不考虑而后单独处理。

设两个人口的死亡力的基本部分分别为Y(x)和YS(x),按照前面的研究:

(20)

B(x)是以年龄x为自变量的多项式,表示死亡力的年龄变化。以我国的人口死亡数据估算,发现有些情况下多项式系数b0,b1,…,bn为正负相间,且它们的绝对值差得很大,前面的系数比后面的系数要大很多。设W为生命表中最大年龄,本文设定为W=100,令:

(21)

则B(y)可改写成:

(22)

因为y<1, 所以B(y)的值主要由前面的系数所决定。

设另一个人口的基本死亡力为:

YS(x)=AS+BS(x)ln(x)

(23)

以下我们来讨论若一个人口死亡力函数YS(x)已知时,如何估计另一个人口的死亡力,或者说Y(x)和YS(x)可以通过何种函数形式联系,即是所谓的间接模型或关系模型。

间接模型一(二参数模型):

(24)

式(24)右边可写成:

(25)

(26)

另有:

Y(x)-A=β[YS(x)-AS]

(27)

整理后得:

Y(x)=α+βYS(x) (α=A-βAS)

(28)

这就是前面所说的一元线性模型。现实中两个不同的生命表函数死亡模式B(x) 和BS(x)的系数成比例的情况是极少的。如果我们要用式(28)来表示两个不同的生命表函数的死亡力,则式(25)的第二项就是公式(28)这一模型的误差。

对式(25)的第二项再分解,令:

(29)

(30)

(31)

(32)

整理后可得间接模型二(三参数模型):

Y(x)=α+β·YS(x)+β1·x·(YS(x)-As)

(33)

式(31)右边分子的第二项为公式(33)模型的误差。

顺着上面的思路,我们可以对式(31)右边的第二项再进行分解,并构筑如下间接模型三(四参数模型):

Y(x)=α+βYS(x)+β1x(YS(x)-AS)+β2x2(YS(x)-AS)

(34)

考虑到死亡力的结构函数形状类似于指数函数形状(参考图2、图3):

(35)

B(x)≈b0eb1x

(36)

BS(x)≈b0Seb1Sx

(37)

(38)

于是,就有模型另一个三参数的间接模型——间接模型四:

Y(x)=α+β1eβ1x(YS(x)-AS)

(39)

考虑到儿童期的死亡力u(x)随年龄增加而减小,成年后死亡力随年龄增加而增大的差别,则有:

(40)

这里B1(x)=b1x+b2x2+…,B1S(x)=b1Sx+b2Sx2+…

类似以上的处理方法,可以得到另一个三参数的间接模型——间接模型五和两个四参数模型——间接模型六和间接模型七:

Y(x)=α+βln(x)+β1YS(x)

(41)

Y(x)=α+βln(x)+β1YS(x)+β2x(YS(x)-AS-b0Sln(x))

(42)

Y(x)=α+βln(x)+β1eβ2x(YS(x)-AS-b0Sln(x))

(43)

在间接模型中,我们总是假定在两个死亡力函数中的一个死亡力函数YS(x)是确定的,所以AS,b0S可认为是已知的。

通过上述推导过程,我们一共推导出七个模型形式:一个两参数模型——公式(23);三个三参数模型——公式(33)、(39)和(41);三个四参数模型——公式(34)、(42)、(43)。接下来通过数据对模型的精度和引用范围进行测试和分析。

2.各种模型的精度比较

以下我们将利用寇尔-德曼尼的分区模型生命表的部分数据(死亡水平在60岁及以上),按照模型生命表的不同死亡类型和死亡水平两个不同角度来对各种模型的精度作比较。

(44)

(45)

以下假定,当Δy≤10 时,认为模型误差“小”,10<Δy≤50时,认为模型误差为“较小”,当50<Δy≤100时,模型误差为“较大”,Δy>100时为“大”。当Δq≤1 时,认为模型误差为“小”,1<Δq≤5时,认为模型误差为“较小”,当5<Δq≤10时,模型误差为“较大”,Δq>10时为“大”。当Δy和Δq处于“小”和“较小”的情况下,我们可认为模型的精度较“高”,当两者的误差在“较大”或“大”的情况,则可以认为模型的精度较“低”。

下面先观察模型一在不同情况下的精度,并以它为基础和其他模型作比较,以确定在不同场合下使用哪一个模型更合适。

在分区模型生命表中,死亡类型分为东方、西方、南方和北方四种类型,为书写简单,这里分别用“E”、“W”、“S”、“N”来表示,“W-E”表示关系模型中一方为西方型,另一方为“东方”型,而“S-N”则表示一方为南方型,另一方为北方型,等等。

(1)在同一死亡类型下根据间接模型估计不同死亡水平的误差比较。这里说的同一死亡类型指作为标准的死亡力和估计对象的死亡力为上面所说的同属某一类型。例如,同属西方型。

首先,考察固定死亡水平差异情况下,七个模型的估计误差。具体做法是死亡水平在60—85岁范围内,对同一个死亡类型,以上一个死亡水平(以预期寿命来衡量)的死亡力为基准(Ys(x)),利用不同的模型,推算下一个死亡水平(与基准相差2.5岁)的死亡力Y(x)并进行估计,得出各种模型精度如下。

模型一:无论男女,误差Δy普遍小于5,误差Δq普遍小于1。说明当死亡水平相差不大的情况下,对同一类型,模型的精度是高的。

模型二至模型七:Δy一般都较模型一小,其中模型四、模型六、模型七的Δq小于模型一。

固定死亡水平差异情况下,七个模型的估计精度都是比较高的。

我们进一步对模型在不同死亡水平差异下估计出来的Y(x)的精度进行比较。这里固定一个死亡水平(这里为65岁)作基准,分别用七个模型对其他死亡水平(即不同的期望寿命)的死亡数据进行估计并比较估计精度随死亡水平差异增加的变动特点。比较结果总结如下。

模型一:随着估计死亡水平与基准死亡水平差异加大,模型估计误差Δy也迅速加大,出现从“小”升至“较小”到“较大”,甚至“大”的情况。其中以西方类型的男性数据为基础的模型估计误差增加得最快。当基准死亡水平与估计的死亡水平相差10岁及以上时,Δy达到100以上。其他死亡水平差异下,模型估计误差Δy处于“较大”程度。估计误差Δq的变化与Δy的情况有所不同,虽然误差也会略有加大,但始终保持在“小”和“较小”的状态。且误差并不是随两者的死亡水平加大而加大,而是在死亡水平相差10岁左右会最大,过了10岁以后,误差Δq会保持在一个“小”的水平。

模型二至模型七:与模型一相比,估计误差Δy变小。但模型二和模型三的误差变化并不显著,模型四至模型七的改变明显,没有再出现误差“大”的情况,模型六和模型七的Δy大多处于“较小”和“小”的状态。对于误差Δq,各个模型的误差都处于在“小”和“较小”的状态。其中,模型二至模型五与模型一相比,Δq互有高低;而模型六和模型七则明显有所降低。

(2)不同死亡类型下各种模型的误差比较。这里说的不同死亡类型指作为标准的死亡力和估计对象的死亡力分属不同类型。例如,以西方型的数据为标准来估计东方型数据,简写为“W-E”。

模型一在相同的死亡水平,即关系模型双方有相同的预期寿命的情况下,模型一的Δy值都比较大,除了“W-E”关系外,其他关系的Δy值都大于100,即属于误差“大”的情况。男性“W-E”预期寿命在70岁以上,Δy<10,误差属于“小”的一类,在70岁以下,属于“较小”类;女性的各种类型,模型的估计误差Δy值基本属于“较小”。死亡概率Δq的误差,以“W-E”的男性为最小,大多属于“小”类,而女性的Δq,大多属于“较小”类,“W-N”和“E-N”的Δq值,也大多属于“较小”类,若一方为南方(S)类,如“W-S”、“E-S”、“N-S”类,误差都比较大,基本上都可归入“大”类。

模型二至模型七,在各种模型下的模型估计误差Δy值几乎都小于模型一,但以模型六的Δy的减幅最为明显。在不同类型和不同水平下,模型六的估计误差都可归入“小”和“较小”范围。死亡概率的误差Δq,模型二至模型五与模型一相比,情况互有高低,而模型六和模型七的的估计误差Δq则普遍减小。其中,模型六的模型估计误差Δq大都属于“小”和“较小”范围,仅在“S-N”女性且期望寿命在70岁时模型误差属“较大”范围。

与相同死亡水平相比,不同死亡水平下,在同一的相互关系中,模型一的Δy和Δq会加大,并且相互关系的双方死亡水平相差越大,Δy和Δq一般也越大。但“W-N”关系中女性是例外,Δy处于“小”和“较小”的范围,Δq处于“小”的范围。死亡概率的误差,男性在“W-S”、“E-S”的关系时,女性在“W-S”、“S-N”时,数值在“较大”和“大”的范围,在其他情况下,在“小”和“较小”的范围。模型二至模型七与模型一相比,Δy的值一般都减小,但Δq值在模型二至模型五中不一定减小,只有在模型六和模型七中,Δq值都能减小,且大部分能在“小”和“较小”范围。

通过上面的比较可以得到如下的结论:在间接模型中,当作为基准的死亡力和被估计的死亡力属于相同的死亡类型时,且两者的死亡水平相差不大时(一般在5岁以内),模型一的精度是较高的,而在其他情况下,模型一的精度就不能保证。模型二至模型五虽然能减小死亡力估计的误差,但不能保证减小死亡概率的估计误差,但模型六和模型七,不论在何种情况下,一般都能有较高的模型精度。这一分析结论对于间接模型在数据修正时的应用有一定的指导意义。

五、间接模型用于数据修正的原则

根据前面的研究,可以得出如下的结论:其一,当两个死亡力函数所反映的死亡类型和死亡水平有较大差别时,若使用类似logit体系模型或者说用线性模型表示死亡力函数关系,则模型的误差往往是大的;其二,判断间接模型是否准确,不仅要用模型函数Y的误差来检验,还需结合其他有关死亡风险指标进一步检验。如上面所述,用Y检验时,模型二至模型五的Δy普遍小于模型一,但Δq却时大时小,说明在提高模型精度上,这些模型的效果不能确定。

间接模型的一大用途是修正死亡率数据。由于死亡风险中“干扰”因素的存在,增加了构建模型的复杂和难度。以下是本文提出应用间接模型修正数据的方案(设数据修正的对象的死亡力函数为Y(x))。

首先,作为标准的YS(x)的数据质量一定要高。

其次,选择和Y(x)有接近的死亡类型和比较接近的死亡水平和作为标准的YS(x)。

再次,观察Y(x)和YS(x)是否存在相近的“干扰”,Y(x)和YS(x)的导数图形中波动函数是否类似?观察死亡力是否存在“干扰”。可以通过求Y(x)和YS(x)的导函数并观察导函数的图形,或者观察两者的死亡率或死亡概率的图形,观察它们在“青壮年”期是否有“高低起伏”的图形?如果Y(x)和YS(x)基本接近,在使用模型时,我们就可以不加考虑,直接通过间接模型对Y(x)的数据作修正。

最后,若两者的“波动”有明显不同,则需要作数据处理。比较稳妥的方法是先把标准函数YS(x)的波动部分除去,留下YS(x)的基本部分。用上面已经讨论的模型来估计目标函数的基本部分,然后再加上目标函数的“波动”。令YS(x)和Y(x)的基本部分为YS0(x)和YS(x)。

作为例子,以下我们来修正2010年新疆男性的死亡数据。按照2010年人口普查的数据计算,2010年,新疆男性人口的平均预期寿命为74.03岁。选择区域模型生命表中死亡水平等于74岁,死亡类型为南方型的死亡力函数作为标准函数,以直接模型中得到的波动函数c(x)作初值,按照上面所述的(1)—(5)的步骤,得到的死亡概率Q(x)的修正值,各年龄Q(x)的观测值和修正值见图6。

六、结论与讨论

本文的基本思路是从人口死亡风险随年龄变动的规律入手分析死亡风险的内在构造。借助于构建死亡风险和累积风险随年龄变化的数理模型将人口死亡随年龄的变动拆分为相对稳定的基本部分和特定年龄的波动部分。我们以此为基础对人口死亡的间接模型进行了理论上的探讨和改进。提出两参数模型一个、三参数和四参数模型各三个(共计七个间接模型)。以寇尔-德曼尼区域模型生命表的数据对间接模型进行了检验并对不同情况下模型的精度进行了讨论和分析,就分析结果提出间接模型在数据修正时的原则。作为案例本文以六普新疆死亡数据为例,利用上述原则对数据进行了修正。

通过本文的研究可以看到作为对死亡规律的刻画,直接模型(数理模型)和间接模型之间存在着密切的内在联系。深入探讨其内在联系不仅具有理论研究价值而且在实际的数据修正中也有重要的指导意义。

猜你喜欢
修正波动误差
修正这一天
CBCT图像引导的放疗前后半程摆位误差分析
对微扰论波函数的非正交修正
休闲假期
隧道横向贯通误差估算与应用
隧道横向贯通误差估算与应用
精确与误差
修正2015生态主题摄影月赛
压力表非线性误差分析与调整