关于我国房地产类股票的聚类分析

2019-08-22 04:29张望舒
消费导刊 2019年7期
关键词:聚类分析

张望舒

摘要:本文选取了28支在我国交易所挂牌上市的房地产行业股票,9项分别从盈利能力、成长能力、偿债能力以及公司的股本扩张能力中选取的具有代表性的公司财务状况指标。对其进行聚类分析,主要思路为:先对其应用NbCIus咆中NbcIust()函数得到最优聚类类数,再应用六种系统聚类方法以及K-means聚类方法对其进行聚类,画出树状图并得出分类结果,再结合实际对其进行分析。

关键词:房地产行业股票 Rstudio 聚类分析

一、数据描述性分析

(一)数据来源

因考虑到不同行业间的数据差异可能会很大,这对分析结果会带来较大误差。故本文仅以房地产行业为例,随机选取28家上市公司2018年上半年度相关信息进行分析。数据如表l所示。

由于衡量上市公司的股票价值的财务指标数量纷繁复杂,为了使统计分析更易进行,经过分类与挑选,最终在不损失衡量股票价值有效信息的前提下,尽可能地缩减了指标个数。查询资料发现,目前评估上市公司基本面状况最为核心的财务能力指标是上市公司的赢利能力、成长能力、偿债能力以及公司的股本扩张能力。由此,本文在上市公司财务指标中选取如下反映这些能力的9项重要指标:总资产、每股收益、流动比率、速动比率、应收账款周转率、净资产收益率、营业收入增长率、净利润增长率,总资产增长率。

(二)相关性分析

为了更加清楚所选择的各指标间的相关关系,接下来,我又对每股收益,流动比率,速动比率,应收帐款周转率,净资产收益率,营业收入增长率,净利润增长率,总资产增长率这些指标两两之间进行了相关性分析,做出相关系数矩阵图(如图1所示)。

二、关于股票评级的聚类分析

(一)评判聚类的类数

为了得到更加准确的最终聚类方案就必须事先确定类的个数,此处,我应用了NbClust包中NbClust()函数所提供的30个不同指标来帮助我进行选择。最终,我发现所有聚类方法的最优类数均为2类。故之后,我主要将所讨论的房地产行业股票聚为2类。

(二)系统聚类法

运行Rstudio程序后我发现,6种系统聚类法(最短距离法、最长距离法、中间距离法、类平均法、重心法、Ward法)所聚出来的结果是完全相同的。且各种系统聚类方法所聚类数为2时的指数评分均为7或8分,足以看出这个聚类结果还是十分有可信度的。(聚类图如图2所示,分类结果如表2所示)。

(三)K-均值聚类法

K-均值聚类的目的是将几个点划分到k个聚类中,使每个点都属于离它最近的聚类中心。通过事先评估,发现类数为2时,评分已经高达了11.所以在这里,我将这几支股票聚为两类,并得到两个聚类中心各项指标的均值,如下表所示:

(四)评价与分析

聚类后我发现,聚类结果主要分为2种:系统聚类法中的6种方法所聚出来的结果是相同的,而K一均值聚类法又聚出了另一种结果。通过与实际情况对比,可以发现,并不存在哪种聚类方法好或者不好,因为它们的分类依据是不同的。即系统聚类方法将其聚成了地产行业龙头企业与非龙头企业。即:万科A,保利地产,绿地控股这三家地产上市公司均属于该行业龙头企业。不仅在总资产与每股收益排名在所选样本前三,而且增长稳健,流动比率与速动比率也十分适中。

而K-均值聚类所聚出来结果,则将其聚成了正常企业与问题企业,即2类中有三支都被打上了sT标志,有一家天业更是打上了星号。这意味着这家公司已经连续三年亏损,并正在面临退市风险。而另外两家企业,阳光股份总资产只有68.71亿元,增長率更是全部为负。嘉凯城每股收益,净资产收益率,净利润增长率,总资产增长率也全部为负值。

综上所述,两种聚类方法都具有实际意义。故在使用这两种聚类方法时,仅需根基自己实际需要选择。

猜你喜欢
聚类分析
基于谱聚类算法的音频聚类研究
基于Weka的江苏13个地级市温度聚类分析
我国中部地区农村居民消费行为阶段特征分析
基于聚类分析的无须人工干预的中文碎纸片自动拼接
浅析聚类分析在郫县烟草卷烟营销方面的应用
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究