基于KP-RBF神经网络的人口平均寿命预测

2018-09-04 07:51赵欣彤杨燕绥
统计与决策 2018年15期
关键词:平均寿命聚类人口

赵欣彤,杨燕绥

(1.中国人民大学 劳动人事学院,北京 100000;2.清华大学 公共管理学院,北京 100084)

0 引言

人口平均预期寿命(以下简称“人均寿命”)是反映一个国家、地区的人口状况,预测人口发展趋势、分析人口结构、评估人口质量的重要指标,为各国政府所重视。准确、及时的人均寿命预测有助于政府决策部门科学制定养老金、医疗保障、养老服务等社会政策。人均寿命不仅受到人口出生、死亡等狭义人口学因素的影响,还是经济、卫生、环境、教育、就业、福利等广义人口学变量综合作用的结果,具有高度非线性、高噪声、低精度、低稳健性等特点,预测难度较大。基于国家大规模人口普查的人均寿命预测虽然结果准确,却存在更新周期长、滞后性严重等缺陷,且需要耗费大量的人力和物力[1];传统的标准生命表法依赖有限参数设定且受制于基础数据来源的有限性和缺失性,且计算过程较为繁琐;多元回归分析法模型较为单一,尤其是当自变量因素较为复杂时,多元回归分析法的处理难度将大大增加,导致预测精度有限。

神经网络是常用的数据预测方法之一,具有较好的分类能力、泛化能力和逼近性能,近年来被广泛应用于函数逼近、模式识别、数据分类等研究中[2]。罗荣桂等[3]利用BP算法实现了长江流域人口数量的预测。黄建元等[4]基于BP算法对我国人口平均寿命进行了预测研究。本文在传统神经网络方法的基础上,提出了一种基于模糊K-Prototypes算法的改进RBF神经网络方法,提高了对人口预测中复杂自变量因素的处理能力,并将KP-RBF神经网络预测方法应用于人口平均寿命预测。对比分析了KP-RBF神经网络与传统BP神经网络和CNN神经网络的性能,发现所设计的KP-RBF方法在预测精度和稳健性方面均优于其他方法。

1 RBF神经网络原理

经典的RBF神经网络结构由输入层、隐藏层和输出层三部分组成,其本质是一个映射过程:f(x) ∶Rm→Rn,设x∈Rm为输入向量,Ci∈Rm为基函数第i个中心节点,则每个基函数输出值为:

其中,‖‖表示欧式距离。通常选用高斯函数作为中心点的激活函数,其函数形式为:

其中,σi为第i个中心点的宽度。RBFNN的第 j个输出 yj(x)为:

其中,l为RBF网络节点个数,φi(x)为第 i个输出偏差,ω(j, i)为第 j个中心点到第i个点的权重。整体的网络结构如图1所示。

图1 RBF神经网络示意图

2 基于K-Prototypes算法的改进RBF神经网络

2.1 K-Prototypes算法

K-Prototypes 算法是由 Huang(1998)提出的聚类方法。传统的神经网络方法如RBF神经网络、BP神经网络等方法在进行数据预测时,对变量之间不相关或弱耦合的假设会导致样本信息利用不充分;同时神经网络基函数中心点选取敏感性较高,使得预测精度和稳健性容易受到影响[5,6];且传统的聚类分析属于硬划分,将每个样本强制划分到某一类当中。这种算法并未考虑在实际情况下样本并没有严格的形态和属性,而是存在不同程度的中介性。与传统的聚类算法相比,K-prototypes算法最大的特点在于对非数值型属性的距离量测改为相异度表示,能够更好地处理混合型数据集。进一步地,模糊K-Prototypes算法是对K-Prototypes算法的有效扩展[7]。模糊K-Prototypes算法通过隶属度函数确定聚类中心的核心对象和边缘对象,对聚类中心进行迭代更新并进行矩阵划分,使得目标函数最小化,进而得到较好的聚类处理效果。该方法通过扩大捕捉有效信息的方式提高处理类中边缘对象的估计效度,以此提高模型处理异常值和缺失数据的能力。

模糊K-Prototypes算法的原理为:假定样本 X=[x1,x2,…,xn],其中 xi=[ ]xi1,xi2,…,xim,m为属性值个数。在对样本X进行聚类时,需要将n个对象划分到K个不同的类别中,聚类准则为使以下目标函数最小:

其中,α为模糊指数。当α>1时该聚类为模糊聚类,当 α=1时该聚类为硬聚类。d(xi, Ck)为数据对象 xi的差异测度,其定义如下:

此时,代价函数的函数形式变为:

进一步地,划分矩阵的更新方法如下:

同样地,聚类中心的更新方法如下:

对于属性Aj( )1≤j≤p :模糊K-Prototypes算法的定义可用如下定义来描述:假定样本是有m个属性A1,A2,…,Am描述的一组数据对象X=[x1,x2,…,xn] ,其中 xi=[xi1,xi2,…,xim]表示数据对象xi的m个属性值。在对xi进行聚类时,使用以下代价函数将n个对象划分到K个不同的类别中:

上 式 中 ,C=[C1,C2,…,CK] ,其 中 Ck=[ck1,ck2,…,ckm]表示聚类k的以向量形式表示的聚类中心,是 K×n的矩阵,元素 ξki为对象xi划分到聚类k的隶属度,满足以下条件:

其中,α是模糊指数。当α>1时该聚类为模糊聚类,当α=1时该聚类为硬聚类。d(xi, Ck)为数据对象xi的差异测度,其定义如下:

此时,代价函数的函数形式变为:

进一步地,划分矩阵的更新方法如下:

同样地,聚类中心的更新方法为:

2.2 划分矩阵ϕ及聚类中心Ci的确定

由于人口平均寿命预测中所涉及的自变量因素多为社会经济因素,各变量之间存在强非线性关系。因此,在确定RBF第二层(隐藏层)中各结点的聚类中心Ci及划分矩阵ϕ时,使用模糊K-Prototypes算法进行聚类运算。具体算法如下:

(1)初始化聚类个数K、聚类中心C0和误差ε,算出划分矩阵ϕ0;

(2)确定 Ci+1,若 | F(ϕt, Ct+1)-F(ϕt, Ct) |< ε,算法停止,返回 ϕi,Ci+1;

(3)确定Ci+1,若 | F(ϕt+1, Ct+1)-F(ϕt, Ct+1) |< ε,算法停止,返回 ϕi+1,Ci+1;

(4)令 i=i+1,返回第(2)步。

2.3 初始聚类中心C0的确定

在确定初始聚类中心C0时,既有研究的做法是从全样本中随机选取K个样本向量作为然后进行迭代运算。由于使用K-Prototypes算法计算得出的聚类结果对C0的选取较为敏感,在运算过程中可能会导致聚类结果偏离实际[8],为提高算法估计结果的信度,本文使用一种新的挑选方法确定初始聚类中心C0。

(1)将各因素变量按如下方式进行标准化,使它们的取值变为[0 , 1]之间,从而消除不同属性取值由量纲不同造成的差异:

其中,maxj为第 j个属性的最大值,minj为第 j个属性的最小值。

(3)将所有属性分为K组,每组包含[ ]N K个数据。将剩余数据归入最后一组中。设定初始聚类中心C0为每组中出现频次最高的属性值;结合(2)中得到的初始值,本文得到K个初始聚类中心为

通过上述方法,能够确保选取的初始聚类中心的选取具有较好代表性,可以有效反映原始样本的分布情况。

2.4 中心点宽度σi的确定

在确定初始聚类中心C0之后,中心点宽度σi可根据各聚类中心之间的欧氏距离计算确定。第i个中心点的宽度为 σi=κdi,其中,κ 为重叠系数;di=mind(Cj-Ci),其含义为第i个点中心与其他最近的点中心之间的距离。

2.5 权重值W的确定

经上述方法确定RBF各中心点的聚类中心Ci及宽度σi之后,对于任意的输入值Pi,得到第 j个输出值yj为:

将其写成矩阵的形式:

给定 R∈Ru×n以及 T=(T1, T2,…,Tn)T∈ Rs×n,n 为样本个数,T为目标矩阵,s为RBFNN的输出维度。则权重值W*应使)达到最小,由线性最小二乘法( )LLS可求得:

其中,RT表示R的转置,R+=(RTR )-1RT为R的伪逆。

3 实例分析

本文使用KP-RBF神经网络方法,选取1990年、2000年、2010年我国31个省份的92组数据作为研究样本进行实证应用。人均寿命数据来自三次全国人口普查。随着我国经济的增长、医疗技术的普及、营养水平的提升和公共卫生的发展,广义的人口学变量,如社会经济水平、经济发展的不平衡性、文化教育水平、医疗卫生条件等社会因素,对地区人均寿命具有综合影响。因此,参考相关研究,遵循目标性、精简性、系统性和针对性的原则,选取人均GDP、城乡比、文盲率、千人床位数、老年人口抚养比、性别比作为影响人口平均寿命的主要因素。由于所选数据的采样时间跨度比较大,各因素方差较大,导致样本分布比较合理,能够很好地反映影响人口平均寿命的不同情况,因此所选取的各项指标构成的数据集对于检验人口平均寿命预测数据模型是一个很好的示例。

在数据处理时,本文随机抽取不同组别数据中的2/3作为训练集、1/3作为检验集,对省级人口平均寿命进行了拟合和检验。由于训练集和检验集均为真实数据,因此可以认为对方法的检验具有较高的信度。表1给出了三种方法的预测结果的平均值对比。图2给出了检验集预测结果对比图,图3(见下页)为检验集预测残差对比图。从预测结果中可以看出,在相同数据支持下,三种方法的预测精度排序为KP-RBF神经网络>CNN神经网络>BP神经网络,预测误差排序为CNN神经网络>BP神经网络>KP-RBF神经网络。这说明,与CNN神经网络和BP神经网络相比,KP-RBF方法在进行人均寿命预测时,预测精度较高,预测残差较低。也就是说,KP-RBF的预测结果拟合度和稳健性都最高,在进行人口寿命预测时,比其他方法具有更好的稳健性。

表1 预测结果平均值对比

图2不同算法预测结果对比图

图3预测残差对比图

得到检验结果并验证其稳健性之后,本文对2016—2030年全国人口平均寿命进行了预测。自变量变化率采用过去五年平均变化率进行线性估计。基于KP-RBF神经网络的未来15年人口平均寿命的预测结果表明,中国人口平均寿命将在2030年达到79.2岁。

4 结束语

本文基于模糊K-Prototypes算法提出了改进RBF神经网络,将其用于人均寿命预测的研究中,并利用中国1990年以来的省级数据进行测算,给出了未来15年中国人口平均预期寿命的趋势预测,其研究结果对于政府决策部门预测人口平均寿命、提高社会政策有效性和前瞻性具有很好的应用价值。随着大数据和人工智能在社会科学研究中的深入和推广,RBF神经网络算法有望在人口预测等多个交叉学科研究中得到更为广泛的应用,从而为社会政策的制定和优化提供更加科学的决策支持。

猜你喜欢
平均寿命聚类人口
《世界人口日》
人口转型为何在加速 精读
基于K-means聚类的车-地无线通信场强研究
人口最少的国家
1723 万人,我国人口数据下滑引关注
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法
2050年,富国人均寿命120?
世卫称日本平均寿命全球第一