基于粗糙集理论的区域航空客流量预测研究

2018-01-22 00:40刘晓明
现代营销·学苑版 2017年11期
关键词:属性粗糙集

摘要:鉴于在航空运输领域中应用经济计量模型预测航空客流量存在一定的局限性,为此本文运用粗糙集理论分析区域航空客流量。在选择影响区域航空客流量因素的基础上,形成了我国31个地区航空客流量的决策表,进而对决策表运用粗糙集的有关方法得出了我国31个地区的航空客流量生成规则,最后采用这些规则对区域航空客流量进行预测,取得比较好的预测结果。

关键词:粗糙集;航空客流量;连续值离散化;属性

为了识别航空客流量与其决定因素之间的关系并对前者进行预测,目前最常见的方法是建立经济计量模型。这些传统模型建立在各种统计假设的基础上,因此当变量之间相互依存、变量的概率分布未知时,那么这些模型就无法得出比较准确的结果。为此本文试图探讨一种基于粗糙集理论的航空客流量预测模型。

作为计算智能方法之一的粗糙集理论(Rough sets theory,简称RS)是波兰数学家Zdzislaw Pawlak于1982年首次提出的。粗集理论诞生的30多年来,已成功地在许多领域中得到应用,然而在航空运输领域中还没有见到关于粗集理论的应用文献。因此,本文在这方面作一个尝试,并通过实例阐明粗集理论在航空客流量方面的应用是适合的。

式(1)和(2)分别为属性集合[Xi]的分类精度和覆盖度,式(3)和(4)分别为所有属性集合的总分类精度和总分类覆盖度。

2.粗糙集在区域航空客流量中的应用

2.1 航空客流量影响因素分析

分析我国航空运输业特点,并结合相关已有的研究,本文采用六个影响因素来预测各地区航空客流量:人均GDP、人口、第一产业就业人员的比重、城市人口、国际旅游人数、与航空枢纽的距离等。这六个因素就是六个条件属性,而决策属性就是各地区的航空客流量,研究对象则是我国大陆的31个省、直辖市、自治区。每个对象由一个多值属性(即条件属性和决策属性)的集合来描述,从而形成一个二维表格,即决策表,表格的“行”与对象相对应,表格的“列”对应于对象的属性,表中为具体的属性值。

条件属性中的“人均GDP”“人口数”和“第一产业人员比重”均为传统需求模型中所常用的经济变量。“城市人口数”的选取主要是考虑城市规模对航空客流量的影响。“国际旅游人数”的选取主要是考虑该属性能间接反映某地区旅游资源的多少,它能解释对于当地经济并不发达的地区(如云南)却有较多的航空客流量。关于“与航空枢纽的距离”这个属性,从我国航空运输格局来看,北京、上海和广州是三大航空枢纽,因此这三个地区的该属性值为“0”;天津离北京很近,而北京又处于河北的中心,所以天津和河北的该属性值均为“1”,表示“特近”的含义;另外,由于江苏的常州、无锡、苏州、昆山等经济重心紧靠着上海,所以其“与航空枢纽的距离”属性为“2”,表示“近”的含义;其余地区类推,数字越大的地区表示该地区与航空枢纽的距离越远。在决策时,把决策属性“地区航空客流量”分成若干等级,运用粗糙集理论得出每个“地区航空客流量”等级所对应的生成规则。

2.2 数据离散化

在应用粗糙集理论对实际数据进行分析和获取知识时,一般要求由实际数据构成的决策表中各个属性值必须用离散值表达。如果某些条件属性或决策属性的值域为连续的,则在处理前必须经过离散化。所以对于下表1中的连续型数据需再进一步离散化成分类数据值以适用于粗糙集的方法。对粗糙集连续属性离散化的方法一般是采用其他领域已有的离散化方法, 本文采用熵方法对连续型数据进行离散化。

2.3 決策规则

本文使用2012年至2015年四年共124个对象(共868个观测值),使用其中60%的对象作为训练规则用,去发现决策规则,其余的40%的对象(即50个)作为预测用,以验证规则的有效性。在使用粗糙集方法后得出了表2中的航空客流量决策规则的主要部分。

第一条规则的含义是:如果某地区人均GDP小于7198元且人口数小于2642万人且第一产业就业人员比重大于等于50.5%且国际旅游人数小于44.5万人,那么该地区航空客流量就小于200万人次,其余的规则含义类推。

该规则把航空客流量影响因素的定性和定量两方面很好结合在一起,另外,同样的航空客流量可以由多条规则产生,这符合实际情况。从规则中各属性出现的频次可得出各属性的重要程度,从多到少依次是“第一产业就业人员比重”“人均GDP”“人口数”“国际旅游人数”和“与航空枢纽的距离”,而“200万人口以上城市数”被约简,从未出现过。

运用上述公式,对用于测试的50个地区进行拟合,得出表3中的预测结果。

在被测试地区总数中,等级4的上近似集合中地区实际个数是12个,被正确预测的为10个,预测精度为83%;等级3的上近似集合中地区实际个数是19个,被正确预测的为17个,预测精度为90%;等级2的上近似集合中地区实际个数是10个,被正确预测的为8个,预测精度为80%;等级1的上近似集合中地区实际个数是8个,被正确预测的为8个,预测精度为100%;全部等级的总体精度为88%。另外,等级3中有一个地区的覆盖度为95%,从而使总体覆盖度为98%,因此粗糙集理论应用在航空客流量预测中是可行的。

结论

本文论述应用粗糙集理论及其模型对我我国区域航空客流量进行预测,得出了一些预测规则,其预测精度较高。与许多传统模型需要建立各种统计假设基础不同,该方法仅需对属性值进行分类。区别于复杂的数学公式,该方法的分析的结果以规则形式进行描述,直观并容易理解。此外粗糙集能够使用定性数据,无须转换成数值,因此可以有效地防止信息失真。当然,针对不同时间段的航空客流量数据进行动态规则的形成是有待进一步解决的问题。

参考文献:

[1]张文修,吴伟志,梁吉业等.粗糙集理论与方法[M].北京:科学出版社,2001.

[2]张永莉,张晓全.我国城市间航空客运量影响因素的实证分析[J].经济地理,2007,4:20-24.

[3]中国民用航空局发展计划司.从统计看民航[M].北京:中国民航出版社,2012-2015.

[4]中华人民共和国统计局编.中国统计年鉴[M].北京:中国统计出版社,2012-2016.

作者简介:

刘晓明(1963- ),男,副教授,研究方向:区域经济管理。endprint

猜你喜欢
属性粗糙集
基于二进制链表的粗糙集属性约简
优势直觉模糊粗糙集决策方法及其应用
对两种实体观的探析
多粒化粗糙集性质的几个充分条件
双论域粗糙集在故障诊断中的应用
两个域上的覆盖变精度粗糙集模型