加权主成分距离聚类分析法及其应用

2018-09-04 07:51吕岩威楼贤骏
统计与决策 2018年15期
关键词:梯队省份分类

吕岩威,楼贤骏,李 平

(1.山东大学(威海)商学院,山东威海 264209;2.中国社会科学院 数量经济与技术经济研究所,北京100732)

0 引言

作为数据挖掘领域的重要分支,聚类分析技术近年来正得到蓬勃发展。聚类分析是通过数学方法研究样本数据在内在特征上的相似性与差异性,将样本划分成若干个不同的类型,从而发现样本数据的分布规律和数据属性之间相互关系的多元统计方法。作为一种无监督学习方法,如何在没有任何先验信息的指导下,实现高效率、高质量分类是学者们关注的重点。目前学术界已从不同角度提出了多种聚类分析方法,在众多聚类分析方法中,传统聚类分析方法假设条件较多,要求样本指标之间权重相同并且相互独立,在实际应用中存在诸多局限。于是许多学者关注于对传统聚类分析方法的改进研究。吕岩威和李平(2016)提出了加权主成分距离聚类分析法[1],从理论层面解决了上述聚类分析方法存在的问题,但尚未将该方法应用于实践检验。有鉴于此,本文拟进一步运用该方法对2014年中国各省份经济发展质量进行分类,从可解释性与统计检验两个层面检验该方法在实践应用中的分类效果,最后以该方法所得分类结果为基准,对各类别省份经济发展质量进行主成分评价,指出其发展的侧重点,为各地区经济发展提供参考和借鉴。

1 指标体系构建与主成分因子选取

1.1 指标体系构建

对经济发展质量的评估是一个动态过程,唯有以经济发展的阶段性特征为基础,选择科学的评价指标和评价方法,才能有针对性地对我国各省份经济发展质量进行科学评价。当前,中国经济发展正步入以“中高速、优结构、新动力、多挑战”为特征的新常态,结合经济新常态的基本特征,分别从经济水平、产业结构、需求结构、城乡区域结构、创新效率、可持续发展六大方面着手,构建中国各省份经济发展质量评价指标体系①指标体系中各二级指标数据均来源于2015年《中国统计年鉴》、《中国科技统计年鉴》和《中国环境统计年鉴》。,指标体系中的一级指标和二级指标如表1所示。

表1 中国各省份经济发展质量评价指标体系

对表1中各级指标的具体说明如下:

(1)经济水平:采用人均GDP指标衡量。人均GDP是衡量一国(地区)经济水平的基本指标,人均GDP处于不同阶段的地区,其经济发展驱动力也有显著差异。

(2)产业结构:根据佩蒂—克拉克定律,随着经济的发展,劳动力将呈现首先由第一产业向第二产业转移,再向第三产业转移的演进趋势。因此以第一产业增加值占GDP比重、第三产业增加值占GDP比重反映产业结构指标。

(3)需求结构:当前中国经济结构存在的一个重要问题就是消费需求不足,经济增长过于依赖投资需求。因此以居民消费占GDP的比重反映需求结构的协调状况。

(4)城乡区域结构:城乡区域协调发展是实现经济发展方式转变的内在要求和重要内容,因此以农村与城镇人均收入比和城市化率反映各地区城乡区域结构。

(5)创新效率:促进经济发展应由主要依靠增加物质资源消耗向主要依靠科技进步、劳动者素质提高、管理创新转变。因此以R&D经费投入占GDP比重、单位资本产出与千人专利申请量反映科技投入与产出状况。

(6)可持续发展:实现可持续发展必须降低物质、资源消耗,全面促进资源节约和环境保护。因此以单位二氧化硫排放产值、万元GDP能耗降低率反映可持续发展指标。

1.2 主成分因子选取

考虑到指标之间量纲不同且数量级相差较大,首先对原始数据进行标准化处理,并进行KMO检验和BARTLETT检验,计算出BARTLETT检验统计量为282.449,相应的概率值接近0,可认为相关系数矩阵与单位矩阵有显著差异。同时,KMO值为0.701,表明指标之间确实存在高度相关性,适合进行主成分分析。应用主成分分析法提取主成分因子,特征值大于1的主成分因子共有3个,其累计的方差贡献率达到80.356%,说明3个主成分因子能够解释原指标变量的绝大多数信息。所提取主成分因子的特征值、方差贡献率和因子载荷矩阵见表2。

表2 主成分因子分析结果

表2结果显示,第一主成分因子在人均GDP、第一产业增加值占GDP比重、第三产业增加值占GDP比重、城市化率、农村与城镇人均收入比、R&D经费投入占GDP比重、单位资本产出、千人专利申请量8个指标上的荷载值都很大,这些指标主要反映了经济水平、产业结构、城乡区域结构和创新效率状况,因此将其命名为综合因子。第二主成分因子在单位二氧化硫排放产值、万元GDP能耗降低率上的荷载值很大,主要反映了资源节约与环境保护状况,因此将其命名为可持续发展因子。第三主成分因子在居民消费占GDP比重指标上的荷载值很大,主要反映了消费状况,因此将其命名为需求结构因子。就3个主成分因子所含信息量来看,第一主成分因子的方差贡献率为51.892%,是第二、三主成分因子方差贡献率的3倍以上,说明第一主成分因子与第二、三主成分因子对分类重要性的差异较大,如果不考虑各主成分因子对分类重要性的客观差异,将会导致分类结果精度降低。

2 分类结果的定性比较与统计检验

2.1 分类结果的定性比较

为增强不同聚类分析方法之间的可对比性,统一以欧氏距离作为样本间相似程度的统计量、以Ward方法测度类间距离,并将31个省份分为5类地区,各聚类分析方法所得分类结果如表3所示。分类结果显示,各聚类分析方法基本均能够将北京、上海、天津、江苏、浙江、广东与其他省份分开,其原因在于上述六省市的各项指标数值总体上均远远领先于其他省份,与其他省份之间的界限较为明显。另一方面,各聚类分析方法基本均将海南、西藏、青海、新疆归为第五类地区,说明这些省份的各项指标数值总体上落后于其他省份,与其他省份之间的差距较大。而其余21个省份的各项指标数值离散程度较小,在聚类空间的分布密集,各聚类分析方法的分类结果也存在较大的差异,具体体现在归属第三类地区的省份数量很多,且归属类别的规律性不明显。

从各聚类分析方法分类结果的差异看,第一主成分聚类分析方法与加权主成分聚类分析方法的分类结果十分相似,两种方法只是在对山东、河南和宁夏3个省份的分类上产生差别。即在第一主成分聚类分析方法的分类结果中,山东被划为第三类地区,河南和宁夏被归为第五类地区,但在加权主成分聚类分析方法的分类结果中,山东被划为第四类地区,河南和宁夏被归为第三类地区,两种方法对其余省份的分类结果完全一致。究其原因在于加权主成分聚类分析方法放大了第一主成分因子对分类的重要性,而削弱了其他主成分因子对分类的作用,从而使得加权主成分聚类分析方法的分类结果近似于第一主成分聚类分析方法。

表3 中国各省份经济发展质量的分类结果

另一方面,加权主成分距离聚类分析方法与传统聚类分析方法的分类结果较为相似,加权主成分距离聚类分析方法只是将传统聚类分析方法分类结果中的广西和青海由第三类地区分别归类到第四类地区和第五类地区,两种方法对其余省份的分类结果完全一致。这说明加权主成分距离聚类分析方法科学、准确地赋予了各主成分因子对分类结果的权重分配系数,从而使得其分类结果显著不同于其他主成分聚类分析方法,反而与传统聚类分析方法的分类结果更为接近。这也说明了由于其他主成分聚类分析方法放大或缩小了各主成分因子对分类重要性的作用,在各主成分因子特征权重差异较大时,传统聚类分析方法的分类效果并不一定劣于其他主成分聚类分析方法。

尤需引起注意的是,一般主成分聚类分析方法的分类结果与其他所有聚类分析方法的分类结果均有较大差异。一是,一般主成分聚类分析方法将北京、上海、江苏、浙江、广东归为第一类地区,将天津、河北等8个省份归为第二类地区。而其他聚类分析方法则均将北京、上海与天津、江苏、浙江、广东区分开,分别作为第一、二类地区。结合原始数据不难发现,除农村人均收入/城镇人均收入、R&D经费投入占GDP比重指标外,北京、上海的其他指标基本都领先于天津、江苏、浙江和广东,将这些省份划归为一类地区不尽合理。二是,一般主成分聚类分析方法所划分的第二、三类地区内的各省份绝大部分为其他聚类分析方法所划分的第三类地区内的省份,这些省份之间的各项指标数值相差不大,将其划分为两类地区难以解释。导致上述分类结果出现的原因在于,一般主成分聚类分析方法以等权的主成分因子代替原始指标直接进行聚类,未区分各主成分因子对分类重要性的差异,从而产生了明显不合理的分类结果。

2.2 分类结果的统计检验

进一步对加权主成分距离聚类分析方法的分类结果进行统计检验,从定量角度考察该方法的分类质量。根据系统聚类法的指导思想,一个合理的聚类应当以保持类内相似性最大化以及类间相似性最小化为目标,使得类内样本之间的离差平方和尽可能小,类与类之间的离差平方和尽可能大。因此,本文运用方差分析法测算了加权主成分距离聚类分析方法分类结果的总类内离差平方和、总类间离差平方和和F检验统计量,进而与其他聚类分析方法分类结果的F检验统计量相比较,结果如表4所示。

表4 各种聚类分析方法分类结果的统计检验

F检验统计量为经自由度调整之后的总类间离差平方和与总类内离差平方和之比,其值越大,表明分类结果的类间距离相对较大、类内距离相对较小,分类准确度越高;反之,则分类准确度越低。根据表4中F检验统计量的计算结果,可以得出以下结论:

(1)一般主成分聚类分析方法分类结果的F值最低,仅为46.825,分类效果明显劣于其他聚类分析方法。这再次说明在各主成分因子信息含量相差较大的情况下,如果忽略不同主成分因子对分类重要性的客观差异,以等权的主成分因子代替原始指标直接进行聚类,并不必然提高分类的质量。事实上,由于指标之间往往存在高度相关性,所提取的第一主成分因子的方差贡献率通常会远大于其他主成分因子,因而一般主成分聚类分析方法更多地表现为低效率的分类结果。

(2)加权主成分聚类分析方法和第一主成分聚类分析方法分类结果的F值分别为52.022和48.179,高于一般主成分聚类分析方法分类结果的F值46.825,但却低于传统聚类分析方法分类结果的F值(58.589)。这一方面说明加权主成分聚类分析方法考虑了各主成分因子信息含量的差异性,较已有主成分聚类分析方法的分类效果有所提高。另一方面也说明加权主成分聚类分析方法放大了第一主成分因子对分类的重要性,而削弱了其他主成分因子对分类的作用,其分类结果同样也存在失真问题,因此该方法的分类结果也并不一定优于传统聚类分析方法。

(3)相比其他聚类分析方法,加权主成分距离聚类分析方法分类结果的F值最高,为60.887,其分类效果明显优于其他聚类分析方法。这主要是由于加权主成分距离聚类分析方法一方面简化了数据结构,消除了指标相关性带来的影响,另一方面又考虑了各主成分因子信息含量的差异,并科学、准确地赋予了各主成分因子对分类结果的权重分配系数,因此其所得分类结果更为客观、可信。

2.3 分类结果的综合评价

鉴于加权主成分距离聚类分析方法的优势,以此方法所得分类结果为基准,对中国各省份经济发展质量进行主成分综合评价。为便于分析,这里将这五类地区划分为三个梯队:第一梯队包括第一类地区和第二类地区的省份;第二梯队包括第三类地区的省份;第三梯队包括第四类地区和第五类地区的省份。从而计算出各梯队主成分因子得分均值和主成分综合得分均值,结果如表5所示。

表5 中国各省份经济发展质量的主成分得分结果

结合表5结果,分别从各主成分因子得分和主成分综合得分两个方面分析不同梯队省份经济发展质量的特征和异同,并指出其发展的侧重点。

2.3.1 主成分因子得分分析

在综合因子方面,第一、二、三梯队的省份得分均值分别为4.253、-0.435、-2.264,第一梯队的得分远高于第二梯队和第三梯队。这反映了第一梯队的省份市场经济起步较早,在经济水平、产业结构、城乡结构和创新效率等方面均保持了较高的水平。同时由第一梯队的省份以点带面辐射,由北向南依次形成了以北京为中心的首都经济圈、以上海为中心的长三角经济圈及以广东为中心的珠三角经济圈。另一方面,从梯队内各省份的差异性来看,第一梯队综合因子得分的标准差为1.312,高于第二梯队的0.656和第三梯队的0.325,说明第一梯队内各省份离散程度较大,这是由于北京和上海的综合因子分值远高于天津、江苏、浙江、广东,这两个省市的综合经济水平更为突出。

在可持续因子方面,第一、二、三梯队的省份得分均值分别为0.178、-0.407、0.731,第三梯队得分远高于其他梯队,表面上呈现出最好的资源利用和环境保护状况。但结合现实不难发现,导致该结果产生的原因在于第三梯队的省份经济发展落后,资源开发不充分,从而使得其在可持续发展方面较为突出。另一方面,从梯队内各省份的差异性来看,第三梯队的标准差为1.724,高于第一梯队的1.460和第二梯队的0.541,说明第三梯队内各省份离散程度较大,这是由于第三梯队内的新疆、西藏和海南可持续因子分值远高于其他省份,具有最好的资源开发潜力和自然环境条件。

在需求结构因子方面,第三梯队得分(0.743)同样远远高于第一梯队得分(0.195)和第二梯队得分(-0.419)。这一结果符合蔡跃洲和王玉霞(2010)对我国消费率演进的判断[2],也同钱纳里(Chenery,1975)关于消费率与经济增长关系的测算结论一致[3]。即随着经济由较低水平向较高水平阶段演进,消费率将呈现先下降后上升的U型趋势。另一方面,从梯队内各省份的差异性来看,第一梯队的标准差为1.749,高于第二梯队的0.724和第三梯队的1.132,说明第一梯队内各省份离散程度较大,这是由于北京和上海的需求结构分值远高于天津、江苏、浙江、广东,是典型的消费拉动型省市。

2.3.2 主成分综合得分分析

就主成分综合得分和梯队分布而言,第一梯队的省份普遍位于东部沿海发达地区,主成分综合得分均值为2.813,远高于第二梯队和第三梯队省份的主成分综合得分均值,经济发展质量整体较好。结合各主成分因子得分发现,这主要是由于第一梯队的省份综合因子得分很高,而可持续发展因子得分则相对较低。故第一梯队的省份应摒弃粗放型经济发展方式,切实当好加快转变经济发展方式的排头兵,提供本地区发展经验供其他省份借鉴,发挥本地区对其他省份的辐射带动作用。

而第二梯队的省份大多位于我国东北地区和中部内陆地区,其主成分综合得分均值为-0.429,经济发展质量相对一般。结合各主成分因子得分发现,这主要是由于第二梯队的省份在综合因子得分不高,且在可持续发展因子得分和需求结构因子得分很低。故第二梯队的省份一方面应根据该地区居民消费特征制定消费政策,提高居民的边际消费倾向,另一方面还应增强可持续发展意识,推行绿色改革,提高可持续发展能力。

第三梯队的省份则全部位于我国西部地区,主成分综合得分均值为-1.2,与其他梯队综合得分均值存在较大差距,经济发展质量相对较差。结合各主成分因子得分发现,其主要原因是第三梯队的省份综合因子得分很低,在经济水平、产业结构、城乡区域结构和创新效率方面较为落后。故第三梯队的省份应“提升存量,做优增量”,在保持经济快速增长的同时,提高经济增长的质量和效益。

3 结论

指标之间的相关性及其重要性差异导致了已有聚类分析方法往往无法获得良好的分类效果。加权主成分距离聚类分析方法系统集成了多个方法的优点,既简化了数据结构,消除了指标相关性带来的影响,又考虑了各主成分因子信息含量的差异,科学、准确地赋予了各主成分对分类结果的权重分配系数,因而能够有效解决已有聚类分析方法在特定情形下的失效问题。本文运用加权主成分距离聚类分析方法对中国各省份的经济发展质量进行分类,从可解释性与统计检验两个层面检验该方法在实践应用中的分类效果。研究结论表明,与已有聚类分析方法相比,加权主成分距离聚类分析法的分类结果可解释性最强,F检验值最高,分类效果明显优于其他聚类分析方法。

进一步以该方法所得分类结果为基准,对各类别省份经济发展质量进行主成分评价,评价结果表明,北京、上海、天津、江苏、浙江、广东被划归为第一梯队,应摒弃粗放型经济发展方式,切实当好加快转变经济发展方式的排头兵;广西、贵州、云南、甘肃、海南、西藏、青海、新疆被划归为第三梯队,应“提升存量,做优增量”,在保持经济快速增长的同时,提高经济增长的质量和效益。其余省份被划归为第二梯队,应提高居民的边际消费倾向及增强可持续发展能力。

猜你喜欢
梯队省份分类
国庆70周年阅兵式空中梯队解读
分类算一算
谁说小龙虾不赚钱?跨越四省份,暴走万里路,只为寻找最会养虾的您
分类讨论求坐标
16省份上半年GDP超万亿元
教你一招:数的分类
说说分类那些事
龙腾东方航空情 战鹰守护中国梦——9·3大阅兵空中梯队巡礼(下)
龙腾东方航空情 战鹰守护中国梦——9·3大阅兵空中梯队巡礼(上)
直升机梯队接受检阅