基于数据挖掘的旅客运输量分析

2016-12-09 02:54包丽莉
天水师范学院学报 2016年5期
关键词:运输量客运量决策树

包丽莉

(天水师范学院 数学与统计学院,甘肃 天水 741001)

基于数据挖掘的旅客运输量分析

包丽莉

(天水师范学院 数学与统计学院,甘肃 天水 741001)

现代旅客运输体系主要由铁路运输、公路运输、水运以及航空运输4种方式组合而成。鉴于它们各具备其经济、技术方面的特色,这4种运输方式形成了一个既相对独立又相互联系的有机体系。运用平行线图和决策树模型对这四种运输方式下的旅客运输量进行比较分析,发现公路运输系统在旅客运输体系中占主导位置。数据还显示近年其他3种旅客运输方式市场份额占有量逐年攀升。这对于交通运输部门合理配置交通运输资源提供了有用信息。

旅客运输;铁路;公路;水运;航空;数据可视化;决策树模型

一直以来,交通运输都是国民经济的基础产业,而由铁路、公路、水运以及民航四种运输方式共同构成的旅客运输体系是综合运输系统的重要组成部分,他们分工明确且各有优势。[1]社会的进步使得这4种运输方式之间存在的竞争和合作关系日益加强。它们互补互助,共同搭建起一个完整的交通运输网络。而人作为旅客运输的服务对象,其行为又具有主观性、不确定性等特点,因此,加强对旅客运输市场的调查和研究,详细了解各个运输方式下旅客运输量的变化规律,把握旅客运输量尤其是公路、铁路等大众运输工具的运量大小、运量变化的客观规律,对保证国民经济的发展和社会稳定目标的实现,都具有非常重要的意义。[2]

1 数据预处理与数据可视化

1.1数据预处理

本文选取了2012.1~2015.11共47个月的旅客运输量数据进行分析,所使用的数据源自中国统计局官方网站。这里涉及到的变量有2012.1~2015.11共47个月的公路客运量、铁路客运量、水路客运量、民航客运量以及当期客运总量。由于各指标的量纲不同,并且数据间数值相差很大,不能直接对其进行分析,因此要对数据进行标准化处理:

这里xij为数据中第i个指标的第 j行元素,E(xi)和Var(xi)分别为第i个指标的均值和方差,Xij表示标准化处理后相应第i个指标的第j行元素。

另外,本文将当期客运总量达到各月客运总量平均值以上的月份界定为客运量相对较大的月份,代表甲等,用1表示;小于各月客运总量平均值的月份界定为客运量相对较小的月份,代表乙等,用0表示。

1.2数据可视化

图1 2012.1~2015.11旅客运输量平行线图

图1中每一根曲线代表一个月客运量数据情况,曲线上的每一个拐点表示这个月各个运输方式下的客运量具体数值。客运总量归类到上方的曲线代表2012.1~2015.11全国旅客运输量在均值以上的年月,归类到下方的曲线代表2012.1~2015.11全国旅客运输量在均值以下的年月。从图中可以看出:公路旅客客运量状况与旅客客运总量的分类状况完全一致,即公路旅客客运量较大的年月,旅客运输总量也较大(归类到甲等);公路旅客运输量较小的年月,旅客运输总量也较小(归类到乙等)。且在公路运输量的位置,数据相对于铁路、水运与航空客运量较集中。这表示公路运输对分类的贡献较大,铁路、水运与航空这三种旅客运输方式对于当期旅客运输总量的分类贡献较小。

2 决策树分类

2.1决策树分类法简介

决策树——一种主要运用于分类和预测研究的树结构。它通过算法将未指定次序的训练集数据放在分类模型中,自动地构造用决策树表示的分类规则,最后再根据决策树对实例进行判断分类。[3]首先,我们将事先经过处理、且具有各自类别标记的训练数据集输入决策树分类器,然后运用分类器进行计算,最后输出结果。决策树分类模型的结果通常是一棵二叉树或者是多叉树。决策树中,对某个属性进行一次测试,就会相应地产生一个内部结点——每一个逻辑判断都可以由一颗二叉树的内部结点来显示,形式为a=b,这里的a代表属性,b代表与属性对应的属性值,最后我们便可以根据不同的属性判断该结点的分支。[4]在模型中,每一个测试结果都由一条树的边来表示。它代表逻辑判断的一个分支结果。数据中有多少个属性值,决策树就输出多少条边。通常,决策树算法是理论研究中最引人注意的点,能否构造出精度较高而规模较小的树是最终的目标。ID3算法[5]的创造使用是决策树算法的高潮阶段,后来经过专家学者不断研究,陆续出现了C4.5、PUBLIC等算法。[6]

决策树方法分类步骤:

(1)输入数据集并生成初始决策树;

(2)计算训练误判率和交叉检验误判率;

(3)根据交叉检验得到的最优叶节点数对决策树进行剪枝操作,生成最小决策树;

(4)计算最小决策树的训练误判率和交叉检验误判率;

(5)对上述过程重复进行;

(6)得到交叉检验误判率达到最小的决策树作为结果,并得到其训练误判率和交叉检验误判率。

2.2决策树模型在旅客运输量数据中的运用

将2012.1~2015.11全国旅客运输量数据输入决策树分类器中,得到如图2的一颗分类树:

由图2可以看出:2012.1~2015.11旅客运输总量的分类状况完全由公路运输量这一个变量所决定。与铁路、水运与航空这三种运输方式的运输量没有关系。当公路客运量的标准化值小于-0.0241586时,当期的全国旅客运输总量归为乙类,表示其低于均值。当公路客运量的标准化值大于-0.0241586时,当期的全国旅客运输总量高于均值,属于甲类。说明当期旅客发送量较大。

图2 初始决策树

对于图2得到的初始决策树,通过100次生成,分别计算其训练误判率和交叉检验检验误判率的平均值,得到表1.

表1 初始决策树的误判率

表1表明:初始决策树得出的训练误判率较小,但是交叉检验误判率为1,显著大于训练误差的误判率。这说明虽然生成的初始决策树对所给数据集能进行很好的分类,但是树的结构对于特定的数据集比较敏感,以至于对于新数据的分类效果将很差,即出现了过拟合现象。[7]

一般,我们可以找到一棵比初始决策树更简单的树来对数据进行分类。以交叉检验误判率为指标,最小交叉检验误判率的标准差为界限,随着叶节点的增加,可找到最先使交叉检验误判率满足小于所设界限的树作为最小决策树。[8]

对上述分类树进行交叉检验,如图3,每次用46个观测值作为训练值,1个观测值作为检验值,循环100次。通过循环实验,选取100次中交叉检验误判率最小的那个树作为结果。修剪后的树的误判率为0.075,其对应了图5的一棵最优叶节点数为2的决策树。

图3 交叉验证

图5表示了分类的结果:对上述过程重复100次后,选取交叉检验误判率最小的那个树作为结果。最终得到一个节点数为2的决策树,决策树只有一层。其误判率为0,表示决策树模型没有产生过拟合现象。这表明对于2012.1~2015.11的旅客运输量数据来说,决策树模型最终产生的分类决策树并没有基于铁路、公路、水运以及航空运输这4种运输方式进行,而是基于公路旅客运输量这一个指标来对当期旅客运输总量进行分类。人们出行,选择最多的仍然是公路交通工具。公路运输对于旅客的分流起到了至关重要的作用。

值得注意的是,模型的误判率为0说明决策树分类器对于现有数据的分类是完全正确的,没有产生误差。虽然平行线图的结果与决策树分类法的结果一致,但显然地,决策树分类方法通过建立决策树模型,更加客观、准确地将数据进行了分类,这为我们使用新的旅客运输量数据判断其类别归属提供了可靠的依据。依据这个模型,我们可以对收集到的新的数据进行分类,直接得出其准确的分类结果,这是平行线分类方法所不能达到的效果。

图4 最优叶节点

图5 净化决策树

3 总 结

从2012年1月到2015年11月的客运量数据来看:在2012年1月到2013年12月这2年全国客运量较高,保持在3亿人以上,且客运总量总体呈缓慢上升趋势。从2014年开始,全国客运量突然减少到2亿人,且有继续下滑的迹象。这与近几年经济增长缓慢、经济下行压力加大导致就业困难、外出务工人员减少、人们压缩出行需求不无关系。另外,公路旅客运输量与全国旅客运输总量之间的差距非常小,也说明公路旅客运输量占旅客运输总量的比例相当高。

公路客运机动灵活,对运行条件适应性强,可达性好。随着公路道路的新建、完善,公路运输已基本实现门到门对接;另一方面,公路旅客运输在时间上的即时性、服务上的个性化这些优点使得乘坐公路运输交通工具成为人们短途出行的首选。[9]2015年交通运输行业发展统计公报显示:截止2015年,我国公路总里程数为457.73万公里,是全国最大的交通运输网络,2014年末的统计结果增加了11.34万公里。全国有99.01%的乡镇和94.28%的建制村开通了客运线路。全年客运车辆完成客运量161.91亿人,比上年减少6.7%.然而,虽然现代公路运输依靠高速公路网络加快旅客运输速度,提高客运服务质量,使得公路旅客运输服务逐步趋于高速化、高档化和舒适化,但是由于其他旅客运输方式也在全力以赴,努力提高市场份额,这就使得公路运输本身的安全性低、花费大等缺点更加凸显。在选择性较大的情况下,人们开始择优选取,使得公路运输的竞争力开始下降。

铁路运输近几年发展迅速,截止2015年底,全国铁路营业里程12.1万公里,比上年末增长8.2%.全年共发送旅客25.35亿人,比上年增长了10.0%.同时,铁路部门也多举措吸引出行旅客。如推行互联网、电话和自动售票机售票,开设绿色通道,为旅客出行购票提供了方便。开行多种精品列车如城际列车,尤其是高铁和动车的开通,大大提高了铁路运输速度和运输能力,彰显出铁路系统改变人们出行,为旅客提供方便、力争占领更大市场份额的决心。加之乘坐铁路运输交通工具比较平稳、受自然条件限制较小、价格相对低廉且安全可靠,所以铁路这一交通工具逐渐成为了人们的首选。[10]

在陆岛间、河口、湖泊、海湾内和水网发达地区,交通运输工具以船舶为主;近年来,水运系统加快全国水运主通道系统的完善,向着高速化、旅游化方向发展。[11]数据显示:2015年底全国内河航道通航里程为12.70万公里,与上年末相比增加了721公里。全年完成水路客运量2.71亿人,比上年增长3.0%.虽然水路运输速度相对较慢,且容易受到季节的影响,但这也恰好是许多旅客选择水路交通工具出行的原因。近年来,选择乘坐水上交通工具出行旅游成为一种时尚与享受。客船特别是高速客船在未来将发挥重要作用。

乘坐飞机出行对于出行距离远、需要节约时间提高出行效率的旅客来说是最佳的选择。初步统计,至2015年末,全国共有颁证民用航空机场210个,比2014年末增加8个。全年全国各大民航公司共完成旅客运输量4.36亿人次,比上年增长11.1%.航空运输由于其速度快,机动灵活,服务质量高而深受旅客青睐。此外,除了适时增加航班航线,努力提高航班正点率,大力改善航空服务质量,民航系统还通过大量新建或扩建机场,拓展支线航运,相互兼并扩大经营规模等方式来吸收客源。燃油附加费的取消和机票价格的降低更是让消费者受益,使得航空旅客运输成为旅客运输系统中旅客数量增幅最大的系统。

在交通越来越发达的现代,人们对出行所选交通工具的要求越来越高。安全保障、旅途花费、售票服务、运行速度、旅途舒适度等成为公众选择交通工具普遍关注的重点。如铁路运输方面,人们关注较多的为售票服务和候乘环境;公路客运方面则更多地关注安全保障和道路状况;水运方面,出行的人们更容易关注旅途安全性、时效性与沿途风景的优美程度;航空运输则较多关注旅途花费、航班准点、安全保障和便捷性等。[12]

旅客运输总量的总体发展趋势告诉我们:虽然铁路、水运与航空运输这3种方式对旅客的分流作用没有公路运输大,但即使是在旅客运输总量减少,公路运输总量锐减的年月,这三种运输方式的旅客运输量仍然在逐年上升。说明近几年这三种运输方式对旅客的分流作用愈加明显。铁路、水运以及航空运输系统的这些发展,得益于他们的改革举措切实提高了运输服务质量,得到了社会的认可。日益激烈化的运输市场争夺使得道路旅客运输面临巨大的压力,如何保持甚至是提高公路旅客运输的市场份额,需要公路运输部门仔细考虑一番。除了优化线路网络、及时更新硬件设施、提高运输效率以外,也许还需要他们在服务理念和服务质量上下功夫。树立新的服务理念,提高服务标准,丰富服务内涵,以高效优质的服务吸引旅客,才是自己的立身之本。

[1]聂锟,唐锡晋.MAS在旅客运输量变化分析中的应用[J]. Management Review,2004,(4).

[2]来晓峰.河南省客运需求预测分析研究[D].西安:长安大学,1999.

[3]张文彤,钟云飞.数据分析与挖掘实战案例精粹.北京:清华大学出版社,2013.

[4]张睿.ID3决策树算法分析与改进[D].兰州:兰州大学,2010.

[5]NIBLETT T,BRATKO I.Learning deision rules in noisy domains[A].Proeedings of Expert System’86[C].Cambridge: Cambridge University Press:1986:25-34.

[6]BREIMAN L,FRIEDMAN J,OLSHEN R A.Classifieation and regression trees[M].Belmont:Wdsworth,1984.

[7]JIE CHENG,DAVID BELL,WEIRU LIU.Learning Bayesian Networks from Data:An Efficient Approach Based on Infor⁃mation Theory,1999.

[8]曲开社,成文丽,王俊红.决策树分类算法的研宄与改进[J].计算机工程与应用,2003,(25):104-105.

[9]王熙照.自顶向下决策树增量剪枝方法研究[D].河北:河北大学,2012.

[10]解晓玲.高速铁路的发展对道路客运的影响及对策[J].运输市场,2010,(2).

[11]邓楚利.铁路旅客运输服务网络层次规划研究[D].湖南:中南大学,2008.

[12]中国交通运输协会“中国旅客运输发展战略研究”课题组.中国旅客运输发展战略研究[J].中国铁路,1997,(5).

〔责任编辑高忠社〕

An Analysis of Passenger Traffic Volume Based on Data Mining

Bao Lili
(School of Mathematics and Statistics,Tianshui Normal University,Tianshui Gansu741001,China)

Modern passenger transport system is mainly composed of railway transportation,road transportation,wa⁃ter transport and air transport.The paper,utilizing parallel graph and decision tree model,makes a comparative anal⁃ysis of the passenger traffic volume with these four different modes of transportation,which shows that road transpor⁃tation prevails in the passenger transport system,and what’s more,the other three modes of transportation increase year by year.

passenger transport;railway;road;water transport;air transport;data visualization;decision tree model

O213

A

1671-1351(2016)05-0001-04

2016-06-11

包丽莉(1990-),女,甘肃武威人,天水师范学院数学与统计学院教师,硕士。

猜你喜欢
运输量客运量决策树
基于线网稳定期的地铁客运量预测方法研究
国内客运恢复快速 航司第一季度亏损程度收窄
决策树和随机森林方法在管理决策中的应用
9月份中国民航旅客运输量同比增长7.9%
基于决策树的出租车乘客出行目的识别
基于模糊关联规则和决策树的图像自动标注
基于灰色和神经网络的铁路客运量预测研究
基于肺癌CT的决策树模型在肺癌诊断中的应用