面板数据聚类分析的投影寻踪模型

2010-05-22 08:06徐华锋方志耕

统计与决策 2010年4期

徐华锋，方志耕

（1．南京航空航天大学经济与管理学院,南京 210016;2.河南城建学院,河南平顶山 467001）

0 引言

面板数据同时包含截面数据和时间序列,既具有空间维度特征又具有时间维度特征,近几年在理论研究和应用研究上都得到了广泛而深入的发展[1]。相关研究也表明利用面板数据建模取得了良好的效果,然而现有的理论和应用主要是从计量建模的角度研究,很少学者考虑面板数据在多元统计中的分析。国内学者朱建平曾对单指标面板数据的聚类分析进行了一定的研究,介绍了面板数据的统计描述方法,构造了面板数据之间相似性的统计指标,并在此基础上提出了面板数据聚类分析的有效方法,为面板数据的多元统计分析开创了新的局面[2]。郑兵云对多指标面板数据的聚类分析进行了研究[3],分析了面板数据的数据格式和数字特征,根据聚类分析原理,重新构造了多指标面板数据的距离函数和离差平方和函数,在此基础上,说明了多指标面板数据的聚类分析过程并且进行了聚类实证分析,进一步推动了面板数据的多元统计分析。

投影寻踪是一种新兴的统计方法,是现代统计、应用数学与计算机技术的交叉学科，属于前沿领域。投影寻踪的基本思想是利用计算机技术，把多维数据通过某种组合，投影到低维子空间上，并通过极小化某个投影指标，寻找出能反映原多维数据结构或特征的投影，在低维空间上对数据结构进行分析，以达到研究和分析多维数据的目的。近年来,国内很多学者致力于该领域的研究工作，并将投影寻踪方法有效地运用到聚类分析和评价当中，并对不同领域的实际问题进行了实证分析[4-11]，取得了一定的成效。但是以往的投影寻踪聚类模型仅局限于研究截面数据，本文尝试对面板数据运用投影寻踪方法进行聚类分析，取得了良好的效果。

1 面板数据的数据格式和数字特征

多指标面板数据的结构要复杂一些,不同于单指标的数据可以由一个简单的二维表来表示,严格上应该用三维表来表示,在平面上我们可以将其转换为一个二级二维表的形式,如表1,研究总体共有N个,每个样品的特征用p个指标（X1…X2…X3）表示,时间长度为 T, 则 Xij(t)表示第 i个样品第j个指标在时间t的数值。

为了下边讨论的方便，这里给出多指标面板数据的几个统计量。

(1)第j个指标在时间t的均值

表1 多指标面板数据

对多指标面板数据的聚类分析之所以比较困难,其中一个很大的原因在于其数据特点是三维空间上的,而投影寻踪方法则有效地把高维数据投影到低维空间,故本文考虑把投影寻踪的动态聚类模型运用到面板数据的聚类分析。

2 投影寻踪动态聚类模型

PP的基本思路是,把高维数据通过某种组合投影到低维子空间上。对于投影到的构形,采用投影指标函数(即目标函数)来衡量投影暴露某种结构的可能性大小,寻找出使投影指标函数达到最优 (即能反映高维数据结构或特征)的投影值,然后根据该投影值来分析高维数据的结构特征。

用PP探索多维数据的结构或特征时一般采用迭代模式。首先根据经验或猜想给定一个初始模型,其次把数据投影到低维空间上,找出数据与现有模型相差最大的投影,这表明在这个投影中含有现有模型中没有反映的结构,然后把上述投影中所包含的结构并在现有模型上,得到改进了的新模型,再从这个新模型出发,重复以上步骤,直到数据与模型在任何投影空间都没有明显的差别为止。

用 xij(t),i=1,2,…，n;j=1,2,…，p;t=1,2,…，T 表示在时刻 t第i个样本第j个指标,投影寻踪动态聚类模型的建立步骤如下：

步骤1:数据标准化处理

由于各指标xij(t)的量纲不尽相同或数值范围相差较大,因此在建模之前对数据进行标准化处理,标准化公式较多,可选择采用,这里采用如下公式:

步骤2:线性投影

把高维的数据信息通过投影的方法转化到低维空间,不但形象直观,而且便于运用常规的方法进行分析处理。所谓投影实质上就是从不同的角度去观察数据,寻找能够最大程度地反映数据特征和最能充分挖掘数据信息的最佳观察角度即最优投影方向。这里选用线性投影,即将高维数据投影到一维线性空间进行研究,实际上就是把矩阵族 (xij(t))n×p转换(投影)成 n维压缩向量族(zi(t))n×p

设 a={a1,a2,…，ap}为单位投影方向向量,则 xij(t)，i=1,2,…，t=1,2,…T的投影特征向量为

Ω={zi|zi=(zi(1),zi(2),…，zi(T))T,i=1,2,…，n}为投影特征向量集合。

步骤3: 构造投影指标函数

这是投影寻踪动态聚类模型建立的关键,是高维数据向低维空间投影所遵循的规则,是寻找最优投影方向的依据,因此,只有构造合理的投影指标才能获得科学的分类结果。下面依据动态聚类思想来构造投影指标。

首先依据实际情况或要求,采用动态聚类法将投影向量聚为k类,实现步骤如下：

(4）重复以上过程，得分类结果序列 V1=(Θ0，Θ1，Θ2…，Θl……)，

其次，构造投影指标函数。

类内样本的邻近程度用类内聚集度dd(a)表示为dd(a)=

其中dh(a)=(zi,zj)为类内聚积度,dd(a)越小,类内样本的聚积程度越高。

因为不同的投影方向反映了数据的不同结构特征、不同综合方式和不同数据挖掘途径。在综合过程中要求z(i)的分布特征应为:局部投影点尽可能密集,最好凝聚成若干个点团;而在整体上投影点团之间尽可能散开。基于此,投影指标函数可构造为

QQ(a)=ss(a)-dd(a)

显然,ss(a)越大表示样本间的距离越远,即类间样本分散越开;相反,dd(a)越小表示类内样本之间的距离越近,即表示类内样本越集中。因此,当QQ(a)取得最大值时,就实现了类间样本尽量散开、类内样本尽量集中的聚类目标。

步骤4：优化投影指标函数

根据上述分析,投影寻踪动态聚类模型可以描述为如下的非线性优化问题。

此模型可以用加速遗传算法求解,具体过程可见[11]。

3 实证分析

中国是世界第二大能源消费国。在不断推进的工业化和城市化进程中，能源问题愈来愈成为中国经济发展和社会进步的“瓶颈”，因此，正确认识中国能源消费结构状况，实现能源、经济和社会之间的协调发展，是开放的中国所面对和必须解决的重要课题。我国区域间的禀赋差异巨大,因此从区域角度出发,对不同地区的能源消费结构进行比较研究是很有意义的，以往的文献在进行分析时往往采用时间序列分析或者截面数据分析，面板模型的采用可以综合考虑地域差别和时间趋势的影响,有助于克服单独使用时间序列分析和截面分析方法的不足。本文以我国29个省区为研究对象，选取煤炭、原油、天然气、电力各占能源消耗总量的比重四个指标，对1998-2007年间的数据运用面板数据聚类分析的投影寻踪模型进行聚类分析。

首先,确定样本分类数。这里将样本分类为五类,即k=5。

其次,依据样本指标值建立能源消费结构聚类模型,其中n=29,p=4,通过优化运算得最优投影方向向量为：

a=(0.22,0.20,0.34,0.24)

最后,模型输出投影特征向量以及聚类结果。聚类分析结果显示29个省区分类如下：

第一类，包括河北、山西、内蒙古、安徽和贵州。这些省份都位于中西部,有的是产煤大省,有的靠近产煤大省,而且之间的交通运输非常方便。它们在生产和生活中的主要能源为煤炭。但这几个省份的人均产值都比较低。

第二类，包括河南、湖北、湖南、云南、宁夏。是典型的中西部地区。这些省份的人均收入低,因而倾向于使用价格相对便宜的煤炭。而河南也是产煤省份,有许多重要的煤矿。

第三类，包括辽宁、吉林、山东、广西、四川、重庆、甘肃,是我国典型的工业基地。

第四类，包括北京、天津、江苏、浙江、福建、青海、新疆。这类省市的石油用量比重和煤炭用量比重都居中间位置。第四类的省份大致上可以分为两种,一种是经济发达地区,另一种是能源产地地区。经济发达地区包括北京、天津、江苏、浙江、福建。能源产地地区包括青海、新疆。

第五类，包括黑龙江、海南、上海和广东。这些省市的能源结构以石油和煤炭为主,石油比重略大。其中,黑龙江和海南属于能源大省,蕴藏着丰富的油气资源，而上海和广东却属于经济发达、能源消耗大的省市。

4 结束语

面板数据的投影寻踪动态聚类模型是基于面板数据的投影寻踪和动态聚类的有机结合,充分发挥了投影寻踪处理高维数据的突出优势,融入了动态聚类的思想,同时又避免了投影寻踪聚类模型的不足。实证分析表明面板数据的投影寻踪动态聚类模型具有客观性强及分类结果明确等优点,为多因素面板数据聚类分析问题的解决提供了一种新方法,也为投影寻踪理论的推广应用提出了一条新思路。

[1]Bonzo D.C.，Hermosilla A.Y.Clustering Panel Data via Perturbed Adaptive Simulated Annealing and Genetic Algorithms[J].Advances in Complex Systems,2002，(4).

[2]朱建平,陈民肯.面板数据的聚类分析及其应用[J].统计研究,2007，(4).

[3]郑兵云.多指标面板数据的聚类分析及其应用[J].数理统计与管理,2008,27(2).

[4]金菊良,张欣莉,丁晶.评估洪水灾情等级的投影寻踪模型[J].系统工程理论与实践,2002，22（2）.

[5]金菊良,汪淑娟,魏一鸣.动态多指标决策问题的投影寻踪模型[J].中国管理科学,2004,(01).

[6]李世玲.基于投影寻踪和遗传算法的一种非线性系统建模方法[J].系统工程理论与实践,2005,(04).

[7]金菊良,丁晶,魏一鸣,付强.解不确定型决策问题的投影寻踪方法[J].系统工程理论与实践,2003,(04)

[8]刘大秀，郑祖国，葛毅雄.投影寻踪回归在试验设计分析中的应用研究[J].数理统计与管理,1995,(01).

[9]张欣莉,王顺久,丁晶.投影寻踪方法在工程环境影响评价中的应用[J].系统工程理论与实践,2002,(6)

[10]滕玉华,陈小霞.开放条件下中国工业能源强度的影响因素分析——基于31个行业面板数据的实证分析[J].新疆财经大学学报,2009,(01)

[11]金菊良,杨晓华,丁晶.基于实数编码的加速遗传算法[J].四川大学学报(工程科学版),2000,(4).