面板数据聚类分析的时间序列趋势外推预测方法

2010-05-22 08:06刘兵

统计与决策 2010年4期

刘兵

（淮南师范学院经管系，安徽淮南 232038）

0 引言

面板数据，即Panel Data，又有人称之为综列数据集，是指同一截面单元集上的重复观察值，是截面数据与时间序列综合起来的一种数据资源。例如，在一个时点上，从某总体中随机地收集了一些人的个人工资、工作时间、学历和其他因素的一个综列数据集，那么，在以后的若干各时点上，要对同样的这些人反复采访，以便得到一群人在不同年份里的工资、工作时间、学历等数据。目前绝大多数的有关面板数据的研究都是从计量建模入手，Bonze D.C.和Hermosilla.A.Y.等统计学家则开创性地将多元统计方法引入到面板数据的分析中来[1]。在此之后国内外的对此相关的研究甚少，国内学者朱建平曾对单指标面板数据的聚类分析进行了一定的研究，并作了实证分析[2]。郑兵云构造了多指标面板数据的距离函数和离差平方和函数,在此基础上,说明了多指标面板数据的聚类分析过程[3]。但时序数据是变化复杂的，郑兵云虽然没有在构造面板数据的离差平方和函数时谈及不同时点的权重，实际上认为时序数据是等权重的了。这里笔者在面板数据聚类分析中引入时间序列趋势外推预测方法，进行进一步深入探讨。

时间序列的基本特征是，其数值是依时间的变化而变化，起伏交替，有起有伏的，有些有某些变化趋势。考虑以下几种序列：（1）具有水平趋势的数据序列；（2）具有非水平趋势的数据序列；（3）具有线性趋势的数据序列。

1 面板数据的时间序列趋势估计方法

研究总体共有N个样品，每个样品的特征用p个指标表示（X1，X2，…，Xj，…，Xp），时间长度为 T，则 Xij(t)表示第 i个样品第j个指标在时间t的数值。

1.1 具有水平趋势的数据序列

Xij(t)（t=1,2…T）表现为在某一水平线上下波动，Xij=βij+εt，εt～N(0,σ2)则

X^ij=(Xij(1)+Xij(2)+…+Xij(T))/T

其中X^ij表示为第i个样品第j个指标的估计值。Xij(t)（t=1,2…T）对X^ij的贡献是等权的。

1.2 具有非水平趋势的数据序列

考虑到非水平趋势，可选用加权平均法，

其中，α1，α2，…，αT≥0，为加权因子，当 α1，α2，…，αT＞0时，意味着所有时点数据都有价值。

1.3 具有线性趋势的数据序列

在线性的时间序列中，存在到底是运用哪一期的估计值的问题，具体要看所要研究的问题。

2 面板数据的聚类统计量

常见聚类统计量有距离和相似系数。距离多用于样品的分类，常见聚类有明氏距离、欧式距离、马氏距离和兰氏距离，因而这里以欧式距离为例。假设面板数据中指标具有相同的时序趋势，设Drk表示为欧式空间距离，drk表示为对原面板数据进行压缩后得出的欧式距离。

2.1 水平趋势下的聚类统计量

具有水平趋势的数据序列的欧式距离，将第r样品与第k样品之间的欧式空间距离记为

也可以对原面板数据进行压缩，由上节可知，X^ij=(Xij(1)+Xij(2)+…+Xij(T))/T，则面板数据的问题回归到一般的截面数据的聚类分析中，

2.2 非水平趋势下的聚类统计量

也可以对原面板数据进行压缩，由上节可知，

则面板数据的问题回归到一般的截面数据的聚类分析中。

如果对于某些研究样品，不同研究目的导致不同时点的观察值的价值有差异，如研究各省、市、自治区城镇居民生活消费的分布规律，进而预测未来城镇居民生活消费的分布情况，在这个例子中年份越近的数据对于居民生活消费的未来分布规律影响越大，因而，越近的时点数据可以赋予更高的权重，αT＞αT-1＞…＞α1。

2.3 线性趋势下的聚类统计量

由上节知，X^ij(t)=aij+bijt

如果考察初始时期总体样品的类别，可选用X^ij(0)或X^ij(1)，选择X^ij(0)则更考虑初始化时期总体样品的类别。

如果想要考察未来时期的聚类情况，可选用未来时点T+t的估计值X^ij(T+t)=aij+bij(T+t)

如果想要考察总体样品的变化情况的类别，可选用一阶差分，即 ΔX^rj(t)=bij。

3 面板数据的聚类方法

聚类分析的方法很多，有系统聚类、动态聚类、有序聚类等，系统聚类法是目前国内外使用得最多的一种方法，常用的聚类方法有最短距离法、最长距离法、重心法、离差平方和法等，这里主要选择离差平方和法来说明各类面板数据的聚类过程。

3.1 水平趋势下的离差平方和法

记第g类样品间的空间离差平方和为Sg，

其中，ig表示第g类中所有样品序号的集合，)表示第g类所有样品第j个指标在t时间的平均值。

其中，ig表示第g类中所有样品序号的集合，表示第g类所有样品第j个指标的估计值的平均值。

3.2 非水平趋势下的离差平方和法

记第g类样品间的空间离差平方和为Sg，

其中，ig表示第g类中所有样品序号的集合，t)表示第g类所有样品第j个指标在t时间的平均值，

如果进行压缩数据，=(α1Xij(1)+α2Xij(2)+…+αT，记第g类样品间的离差平方和为sg，则

其中，ig表示第g类中所有样品序号的集合表示第g类所有样品第j个指标的估计值的平均值。

3.3 线性趋势下的离差平方和法

如果想要考察总体样品的变化情况的类别，记第g类样品间的差分离差平方和为Δsg，

其中，ig表示第g类中所有样品序号的集合，表示第g类所有样品第j个指标的bij的平均值。

其中，ig表示第g类中所有样品序号的集合，表示第g类所有样品第j个指标在t时间的估计值的平均值。

4 结束语

面板数据的聚类分析只是面板数据在多元统计分析中的一个方面,本文对面板数据的聚类分析作了一些基础性的研究和实证分析,这里仅仅考虑有限的数据时间序列趋势，而且要求同个面板数据中时序趋势是属于同一类的，不同的类聚类分析还需要进一步的研究，可喜的是非等时间间隔的面板数据的聚类方法的研究可以依照此思路开展下去,有待于进一步探讨。

[1]Bonzo D.C.，Hermosilla A.Y.Clustering Panel Data via Perturbed Adaptive Simulated Annealing and Genetic Algorithms[J].Advances in Complex Systems,2002，(4).

[2]朱建平，陈民恳.面板数据的聚类分析及其应用[J]统计研究,2007，(4).

[3]郑兵云.多指标面板数据的聚类分析及其应用[J].数理统计与管理,2008，（3）.